为 什么 写作 本 书 


众所周知 ，C 语 言 是 一 门 既 具 有 高 级 语言 特点 ， 又 有 汇编 语言 特点 的 通用 计算 机 编程 语言 ， 无 论 是 操作 系统 (如 Microsoft Windows、Mac OS X、Linux 和 UNIX 等 ) 、 谋 入 式 系 统 与 普通 应 用 软件 ， 还 
是 目前 流行 的 移动 智能 设备 开发 ， 随 处 都 可 以 看 见 它 依然 矫健 的 身影 。 它 能 够 轻松 地 应 用 于 各 类 层次 的 开发 中 ， 从 设备 驱动 程序 和 操作 系统 组 件 到 大 规模 应 用 程序 ， 它 都 能 够 很 好 地 胜任 。 毋 庸 置疑 ， 它 是 
二 十 几 年 来 使 用 最 为 广泛 、 生 命 力 最 强 的 编程 语言 ， 它 的 设计 思想 也 影响 了 众多 后 来 的 编程 语言 ， 例 如 C++、Objective-C、Java、C# 等 。 


尽管 C 语 言 有 着 悠久 的 历史 和 广泛 的 使 用 场景 ， 但 它 依旧 让 大 部 分 计算 机 编程 人 员 望 而 生 旦 ， 相 信 绝 大 多 数 读者 也 还 停留 在 “入 门 者 ”这 个 阶段 。 所 谓 “ 人 入 门 者 ” 指 的 是 已 经 可 以 简单 使 用 C 语 言 编写 普 
通 应 用 程序 ， 但 是 却 不 明白 如 何 编写 高 质量 代码 的 人 。 面 对 这 样 的 实际 情况 ， 在 准备 编写 本 书 之 前 ， 一 连 串 的 问题 深 深 地 映 入 笔者 的 脑海 : 到 底 什么 样 的 编程 书籍 才能 够 帮助 “入门 者 ”快速 进 阶 ? 面 对 市 
面 上 众多 的 优秀 C 语 言 编程 书籍 ， 编 写本 书 的 价值 何在 ?怎样 的 内 容 才 能 够 与 众 不 同 ? 


带 着 这 一 连 串 的 问题 ， 笔 者 开始 回顾 自己 这 些 年 的 开发 生涯 ， 发 现 如 下 几 类 问题 经 常 困扰 “入 门 者 ”: 


“ 基础 数据 类 型 问题 : 如 数据 取 值 范围 、 整 数 溢出 与 回 绕 、 浮 点 数 精度 、 数 据 类 型 转换 的 范围 检查 等 。 


“ 数组 与 指针 问题 : 指针 与 地 址 、 野 指针 、 空 〈null) 指针 、NULL 指 针 、void 指 针 、 多 级 指针 、 指 针 函 数 与 函数 指针 ， 以 及 数组 越界 与 缓冲 区 溢出 等 。 
“ 内 存 管理 问题 ; 内 存 分 配 、 内 存 释 放 、 内 存 越界 与 内 存 泄漏 等 。 

“ 字符 与 字符 串 问 题 : 串 找 贝 与 内 存 拷 贝 ， 内 存 重 肥 与 溢出 ， 字 符 串 查找 等 。 

“ 高 效 设 计 问 题 : 表达 式 设 计 、 算 法 设计 与 函数 设计 ， 内 联 函 数 与 宏 的 取 合 等 。 

“ 其 他 杂项 问题 : 信号 处 理 、 文 件 系 统 、 断 言 与 异常 处 理 、 内 吝 汇 编 的 使 用 等 。 


如 果 你 同样 也 苦于 处 理 这 些 问题 ， 或 者 对 这 些 问题 模棱两可 ， 那 么 本 书 正 是 为 你 所 准备 的 。 本 书 为 普遍 存在 于 初级 与 中 级 开发 者 脑海 中 的 那些 问题 给 出 了 经 验 性 的 解决 方案 。 全 书 分 为 15 章 ， 通 过 125 
个 建议 深度 剖析 (语言 程序 设计 中 的 常见 性 问题 ， 并 给 出 经 验 性 的 解决 方案 。 除 此 之 外 ， 为 了 使 读者 能 够 尽量 做 到 “ 知 其 所 以 然 ”， 本 书 重点 阐述 了 一 些 尖锐 的 问题 ， 如 IEEE 754 浮 点 数 、 指 针 与 数组 、 越 
界 与 溢出 等 问题 。 当 然 ， 这 些 经 验 和 心得 的 积累 并 非 我 一 人 之 力 ，“ 我 只 不 过 是 站 在 巨人 的 肩膀 上 而 已 ”。 因 此 ， 在 撰写 本 书 的 过 程 中 也 参考 了 大 量 的 资料 ， 如 www.securecoding.cert.org 的 《SEI CERT 
C Coding Standard》、1ISO/IEC 9899: 1990、ISO/IEC 9899: 1999 与 ISO/IEC 9899: 201x 标 准 文档 等 。 


如 何 阅读 本 书 


本 书 适 合 那些 有 一 定 C 语 言 基 础 并 希望 快速 提升 程序 设计 能 力 的 初级 与 中 级 程序 员 。 因 此 ， 本 书 并 不 会 阐述 C 语 言 中 的 一 些 基 础 概念 ， 而 是 将 C 语 言 编程 过 程 中 可 能 遇 到 的 疑问 或 者 障碍 进行 一 一 列举 与 
剖析 ， 并 给 出 了 经 验 性 解决 方案 与 建议 。 


如 果 你 是 一 位 有 一 定 C 语 言 编程 基础 的 初中 级 读者 ， 本 书 就 是 为 你 量 身 打造 的 。 你 可 以 逐 章 进行 系统 性 学 习 ， 并 结合 我 们 提供 的 源码 动手 实践 ， 巩 固 所 学 的 知识 。 书 中 的 大 多 数 建议 实战 性 很 强 ， 要 完 
全 理解 其 中 的 奥妙 ， 请 果断 地 放弃 printf 函 数 ， 多 调试 一 下 程序 ， 编 程 高 手 都 是 调试 出 来 的 ， 如 果 你 是 一 位 编程 经 验 非常 丰富 的 高 级 读者 ， 那 么 可 以 将 书 中 的 大 部 分 经 验 与 自己 的 一 些 经 验 进行 融合 ， 从 而 获 
得 更 多 提高 与 升华 。 


资源 及 勘误 
通常 情况 下 ， 一 个 问题 的 解决 方案 往往 不 止 一 种 ， 你 可 能 会 不 同意 本 书 中 的 一 些 观点 ， 甚 至 强烈 反对 。 同 时 ， 尽 管 笔者 在 本 书 的 写作 过 程 中 非常 认真 与 努力 ， 但 由 于 水 平 有 限 ， 书 中 难免 存在 错误 和 不 


足 之 处 ， 朋 请 批评 指正 。 如 果 你 对 本 书 有 什么 意见 、 问 题 或 想法 ， 欢 迎 使 用 下 面 的 邮箱 通知 笔者 ， 笔 者 将 不 胜 感激 。 当 然 ， 也 可 以 通过 微 信 (sc-mawei) 与 笔者 取得 联系 ， 共 同 进 行 技术 交流 。 


Email: madengwei@hotmail.com 


特别 鸣谢 


最 后 ， 要 感谢 那些 所 有 帮助 过 笔者 的 人 ， 没 有 他 们 的 帮助 与 付出 ， 这 本 书 很 难 顺利 完成 。 尤 其 要 感谢 下 面 这 些 人 : 


首先 ， 机 械 工业 出 版 社 的 杨 福 川 与 姜 影 为 本 书 的 整体 策划 、 审 阅 和 出 版 做 了 大 量 的 工作 ， 与 他 们 的 合作 是 非常 愉快 的 。 同 时 ， 由 于 写作 过 程 漫长 ， 难 免 令 笔者 情绪 波动 ， 是 他 们 给 了 我 一 如 既往 的 支持 
与 鼓励 ， 当 我 想 要 放弃 的 时 候 ， 是 他 们 的 敦促 让 我 对 写作 时 刻 保持 着 热情 ， 坚 持 完成 本 书 。 也 正 因为 他 们 对 本 书 的 不 断 要 求 ， 才 使 得 本 书 的 结构 更 加 系统 化 ， 内 容 更 加 深刻 ， 语 言 更 加 简单 易 懂 . 


其 次 ， 要 感谢 家 人 的 支持 。 为 了 编写 本 书 ， 笔 者 投入 了 大 量 的 时 间 和 精力 ， 牺 牲 了 许多 可 以 陪 家 人 的 周末 和 节假日 。 


最 后 ， 要 感谢 那些 曾经 为 本 书 的 编写 提 过 意见 的 朋友 ， 感 谢 他 们 对 本 书 的 默默 支持 。 


马 伟 


第 1 章 数据， 程序 设计 之 根本 


数据 是 程序 设计 最 基础 的 概念 ， 程 序 对 数据 进行 操作 。 换 句 话说 ， 任 何 一 个 完整 的 程序 都 可 以 看 成 是 一 组 数据 和 作用 于 这 组 数据 上 的 操作 的 说 明 。 同 时 ， 程 序 中 的 每 个 数据 项 也 都 有 一 个 与 之 相关 的 类 
型 ， 称 为 “数据 类 型 ”。 


这 样 ， 在 程序 中 就 可 以 使 用 数据 类 型 来 区 分 不 同 的 数据 ， 进 而 根据 实际 需要 为 这 些 数据 分 配 不 同 的 存储 空间 。 这 就 像 成 年 人 必须 睡 成 人 床 ， 而 给 婴儿 配备 婴儿 床 就 足够 了 ， 如 果 你 给 婴儿 分 配 一 张 成 人 
床 就 会 造成 资源 浪费 ， 相 反 给 成 年 人 分 配 一 张 婴 儿 床 则 有 可 能 会 发 生 “ 溢 出 ”。 数 据 类 型 也 一 样 ， 由 于 不 同 的 数据 所 需要 的 存储 容量 各 不 相同 ， 因 此 需要 分 配 的 内 存 空间 大 小 也 会 不 一 样 ， 这 样 才能 够 保证 
内 存 资源 的 合理 配置 ， 使 程序 性 能 达到 最 优化 。 因 此 ， 如 何 合理 、 安 全 地 使 用 这 些 数据 类 型 是 每 个 程序 员 必须 掌握 的 。 本 章 将 围绕 这 一 话题 进行 讨论 。 


建议 1: 认识 ANSI C 


局 


谈 到 C 语 


的 发 


展 历程 ， 就 不 得 不 从 最 早 的 二 进 制 语言 说 起 。 大 家 都 知道 ， 二 进 制 语言 可 以 说 是 世界 上 最 早 的 计算 机 


语言 


1， 其 中 ，0 代 表 低 电压 ，1 代 表 高 电压 ) 来 编写 程序 。 可 想 而 知 ， 这 样 的 编码 方式 对 程序 设计 人 员 来 说 是 多 么 困 


了 汇编 语言 (Assembly Language) 。 


与 二 进 制 语言 一 样 ， 汇 编 语 言 也 是 面向 机 器 的 程序 设计 语言 ， 不 同类 型 的 计算 机 上 需要 提供 不 


难 与 枯燥 。 


符 


号 (Symbol) 或 标号 (Label) 来 代替 地 址 码 。 由 于 汇编 语言 采 


代 蔡 二 进 制 代 码 ， 


因此 ， 为 了 提高 程序 设计 效率 并 减轻 程序 设计 人 员 的 负担 ， 所 以 


同 的 汇编 语言 。 但 与 二 进 制 语言 不 同 的 是 ， 汇 编 语言 使 


2 


已 


只 人 允许 程序 设计 人 员 使 


计算 机 能 够 直接 识别 和 执行 的 二 进 制 代码 ( 即 0 和 


后 来 很 快 便 出 现 


’ 


地 址 符 


助 记 符 (Memoni) 来 代替 操作 码 ， 并 


语言 。 使 


也 被 称 为 符 


言 翻译 


接 识别 ， 而 需要 通过 一 种 程序 将 汇编 语 


此 , 它 


汇编 语言 编写 的 程序 机 器 并 不 能 


= 


成 机 器 能 够 识别 的 二 进 制 语言 ， 这 种 起 翻译 作用 的 程序 就 是 汇编 程序 。 


相对 于 二 进 制 语言 ， 汇 编 语言 不 仅 使 开发 效率 得 到 了 很 大 提升 ， 而 且 它 还 
器 的 限制 ， 对 生成 的 二 进 制 代码 进行 完全 控制 :能 够 对 关键 的 代码 进行 更 准确 


尽管 如 此 ， 汇 编 语言 依旧 是 一 种 


易 产 生 bug， 难 于 调试 ; 一 般 只 能 针对 特定 的 体系 结构 和 处 理 器 进行 优化 ; 开发 效率 很 低 ， 
计算 机 语言 ， 我 们 称 这 种 语言 为 高 级 语言 。 这 样 ， 程 序 设计 人 员 就 可 以 将 问题 及 解决 问题 的 算法 过 程 描述 出 来 ， 利 


不 同 的 代码 。 


层次 非常 低 的 语言 ， 它 仅仅 高 于 直接 手工 编写 二 进 制 的 机 器 指令 码 。 在 实际 应 


有 许多 优点 ， 比 如 
出 控制， 避免 


Sb| 


已 有 


够 直接 同 计算 机 的 底 


层 软件 或 硬件 进行 交互 ， 直 接 访问 与 硬件 相关 的 存储 器 或 /OO 端口 
因 线 程 共同 访问 或 硬件 设备 共享 而 引起 的 死 锁 ; 能 够 根据 特定 的 应 


;能 够 不 受 编译 
对 代码 进行 最 佳 优化 ， 提 高 运行 速度 等 。 


中 ， 它 仍然 暴露 了 一 些 不 可 避免 的 缺陷 : 如 编写 的 代码 非常 难以 阅读 ， 不 好 维护 ; 很 容 


时 间 长 且 单 调 等 。 因 此 ， 我 们 更 加 


1 


需要 一 种 设计 描述 简单 ， 能 脱离 对 机 型 的 要 求 ， 并 且 能 在 任何 计算 机 上 运行 的 


这 种 高 级 语言 直 


接 写 出 各 种 表达 式 来 描述 简单 的 计算 过 程 ， 而 无 须 针对 不 同 的 机 型 编写 


@;#€ 高 级 语言 编写 的 程序 称 为 源 程序 ， 源 程序 不 能 在 计算 机 上 直接 运行 ， 必 须 将 其 翻译 成 二 进 制 代码 后 才能 执行 。 一 般 有 两 种 翻译 方式 : 一 种 是 “解释 程序 ”方式 ， 即 将 源 程序 作为 输入 ， 翻 译 一 


身后 就 提交 


世界 上 出 现 的 第 一 种 高 级 语言 是 Algol 语 言 ， 它 也 可 以 算 作 C 语 言 的 前 身 。 它 和 普通 语言 表达 式 非常 接近 ， 适 
局 部 性 概念 、 动 态 、 递 妥 、 巴 科斯 -诺尔 范式 (Backus-Naur Form，BNF) 等 。 从 某 种 意义 上 讲 ，Algol 60 应 该 是 程序 设计 语言 发 展 史上 的 一 个 号 
自动 化 及 软件 可 靠 性 的 发 


念 
念 ， 


人 员 欢 迎 。Algol 60 推 出 了 许多 新 的 概念 ， 如 
志 着 程序 设计 语言 已 成 为 一 门 独立 的 科学 学 科 ， 并 为 后 来 的 软件 


豆 


Programming Language) ， 即 复合 程序 设计 语言 。 但 由 于 CPL 的 规模 很 大 ， 学 习 和 掌握 都 比较 


上 算 机 执行 一 句 ， 这 种 方式 并 不 形成 目标 程序 ; 另 一 种 是 “编译 程序 ”方式 ， 即 将 源 程序 作为 输入 ， 全 部 翻译 成 二 进 制 代码 后 再 执行 ， 编 译 后 的 二 进 制程 序 称 为 目标 程序 。 


于 科学 计算 机 。 1960 生 


FAlgol 60 版 本 推出 后 ， 很 受 程序 设计 


展 英 定 了 基础 。 


于 数值 计算 ， 所 以 Algol 多 


有 程 碑 ， 它 标 


Algol 60 来 描述 算法 很 方便 ， 但 是 它 离 计算 机 硬件 系统 却 很 远 ， 不 宜 用 来 编写 系统 程序 。1963 
此 没有 流行 。1967 生 


H 


向 过 


次 国 


因 


困难 ， 


Combined Programming Language) ， 即 基本 复合 程序 设计 语言 。 它 是 典型 的 


目下 | 


人 条 已 | 


高 。 同 时 ，BCPL 也 是 最 早 使 用 库 函 数 封装 基本 输入 输出 的 语言 之 一 ， 这 使 


1969 年 ， 美 


电气 公司 、 麻 省 理工 学 


国 


通 


的 跨 平台 


院 与 贝尔 实验 室 联 合 创建 了 一 个 庞大 的 项 


可 移植 性 很 好 。 


剑桥 大 学 在 Algol 语 言 的 基础 上 增添 了 处 理 硬件 的 能 力 ， 并 命名 为 “CPL” 


程 的 高 级 语言 ， 它 的 语法 更 加 靠近 机 器 本 身 ， 适 合 


， 命 名 为 Muktics 工 程 。 该 项 目的 目的 


(Combined 
rtin Richards 对 CPL 语 言 进行 了 简化 ， 推 出 BCPL (Basic 
发 精巧 、 高 要 求 的 应 用 程序 ， 而 且 它 对 编译 器 的 要 求 也 不 


剑桥 大 学 的 Ma 


是 创建 一 个 操作 系统 ， 不 过 由 于 该 项 目 过 于 复杂 和 庞大 ， 最 终 失 败 了 。 这 也 


致使 项 目的 参与 者 之 一 通用 电气 公司 退出 软件 领域 ， 同 时 ， 贝 尔 实验 室 的 专家 们 也 撤 出 了 Muktics 工 程 ， 转 而 研究 新 的 领域 。 之 后 ， 贝 尔 实验 室 的 一 位 名 为 Ken Thompson 研 究 员 和 他 的 同事 Dennis 
Ritchie 组 成 一 个 非 正式 的 小 组 ， 开 始 进行 一 些 其 他 方面 的 研究 。 为 了 自 娱 自 乐 ，Ken Thompson 把 他 的 “太空 旅行 ”软件 移植 到 不 太 常 用 的 PDP-7 系 统 上 。 与 此 同时 ，Ken Thompson 还 为 PDP-7 系 统 编写 
了 一 个 简单 的 操作 系统 。 该 操作 系统 比 起 Muktics 工 程 简单 了 许多 ， 采 用 汇编 语言 编写 ，1970 年 Brian Kernighan 为 其 取 名 为 UNIX。 

Bt 总 从 这 里 可 以 看 出 ， 著 名 的 操作 系统 UNIX 是 早 于 C 语 言 出 现 的 ， 后 来 才 用 C 语 言 重 写 此 系统 ， 这 一 点 一 定 要 注意 。 

不 过 使 用 汇编 语言 编写 程序 不 仅 吃力 而 且 效 率 低 下 ， 所 以 Ken Thompson 就 考虑 利用 高 级 语言 的 特性 来 解决 这 一 问题 。1970 年 ，Ken Thompson 进 一 步 简化 了 BCPL， 突 出 硬件 的 处 理 能 力 ， 并 
取 “BCPL” 的 第 一 个 字母 “B” 作 为 新 语言 的 名 称 ， 即 B 语 言 。 同 时 ， 他 还 使 用 B 语 言 编 写 了 UNIX 操 作 系 统 程序 。 不 过 B 语 言 还 是 存在 许多 问题 ， 最 大 问题 就 在 于 无 法 表达 不 同 的 数据 类 型 ， 而 且 效 率 不 高 ， 


这 也 人 迫使 Ken Thompson 后 来 不 得 不 在 PDP-11 的 基础 上 村 


新 使 用 汇编 语言 来 实现 UNIX。 


对 B 语 言 存在 的 问题 ，1971 生 


H 


FDennis Ritchie 通 过 增加 类 型 扩 


的 是 编译 模式 而 不 是 解释 模 


展 了 B 语 言 ， 这 次 采 / 


式 ， 并 且 引 入 了 类 型 系统 ， 每 个 变量 在 使 用 前 必须 声明 。 这 种 扩展 的 B 语 言 称 为 NB， 即 New B 的 缩写 。 
1972 年 ，Ken Thompson 和 Dennis Ritchie 继 续 对 B 语 言 进行 完善 和 扩充 ， 他 们 在 保留 B 语 言 强大 硬件 处 理 能 力 的 基础 上 ， 扩 充 了 数据 类 型 ， 恢 复 了 通用 性 ， 并 取 “BCPL” 的 第 二 个 字母 “C” 作 为 新 语 


言 的 名 称 ， 即 C 语 言 。 其 实 ，C 语 言 除了 增 


数组 下 标 从 0 开始 ， 而 不 是 从 1 开始 。 例 如 ， 我 们 定义 一 个 数组 arr[50]， 因 


[类 型 系统 外 ， 它 还 增加 了 许多 方便 编译 器 设计 者 设计 的 新 特性 ， 主 要 表现 在 以 下 几 个 方 | 


为 C 语 言 的 数组 下 标 是 从 0 开始 的 ， 所 以 它 的 合法 范 上 


回 


是 arr[0]~arr[49]。 因 


此 ， 你 不 能 够 向 arr[50] 里 存储 数据 。 


“ 可 以 把 数组 看 作 
会 在 后 面 进行 详细 阐述 。 


' float 类 型 被 自动 扩展 为 double 类 型 。 虽 然 在 ANSI C 中 情况 不 再 如 此 ， 但 最 初 浮 点 数 常量 的 精度 都 是 double 类 型 的 ， 所 有 表达 式 中 float 类 型 的 变 


父 


“ 增加 register 关 键 字 ， 用 此 关键 字 告 诉 编译 器 设计 者 哪些 


此 后 ， 两 人 又 合作 


1963 年 
CPL 


1960 年 
Algol 60 


Dy [> 


1978 生 
为 “K&R” 
上 ， 并 受到 


广泛 支持 。 


随 着 CC 语言 在 多 个 领域 的 推广 和 应 


员 会 ANSI (American National Standards Institute) 


Standards，INCITS) ) 成 立 了 一 个 专门 的 技术 委员 会 J11 (J11 是 委员 会 编号 ， 全 称 是 X3J11) ， 


准 ， 此 标准 也 称 为 C89 标 准 。 


随后 ， 
作 组 ) 的 努力 下 ，1SO 批 准 ANSI C 成 为 


E3 


际 标准 ,于 


写 了 UNIX 操 作 系 统 ，C 语 言 也 伴随 着 UNIX 操 作 系 统 成 为 一 种 广 受 欢迎 的 计算 机 语言 。 


1970 年 
路 | | 中 


1967 


BCPL 


FE， 为 了 让 C 语 言 脱离 UNIX 操 作 系 统 ， 成 为 任何 计算 机 上 都 能 运行 的 通用 计算 机 语言 ，Brian Kernighan 和 Dennis 
。 书 中 对 C 语 言 的 语法 进行 了 规范 化 描述 ， 书 末 的 参考 指南 则 给 出 了 当时 C 语 言 的 完整 定义 ， 这 也 成 为 当时 C 语 言 叶 


首 针 ， 它 简化 了 参数 的 传递 方法 ， 使 大 家 不 必 忍 受 传递 一 个 数组 到 函数 时 需要 复制 所 有 数组 内 容 的 低 效率 。 不 过 ， 值 得 注意 的 是 ， 数 组 与 指针 并 非 在 任何 情况 下 都 是 等 效 的， 这 一 点 


里 起 


会 被 自动 转化 为 double 类 型 。 


量 被 放 到 了 寄存 器 中 ， 从 而 简化 编译 器 ， 但 却 也 因此 给 程序 员 带 来 了 无 穷 无 尽 的 麻烦 ， 这 一 点 会 在 后 面 的 章节 中 详细 阐述 。 


1-1 按 时 间 顺 序 痢 述 C 语 言 的 由 来 。 


党 。 
掉 


~. 


图 1-1 CC 语言 的 由 来 


1971 年 
NevB 


D 


1973 年 
C 


Ritchie 共 同 撰写 了 《The C Programming Language》 的 第 1 版 ， 该 著作 简称 


实 上 的 标准 ， 此 标准 称 为 “K&R C”。 从 此 以 后 ，C 语 言 被 移植 到 各 种 机 型 


属 下 专门 负责 信息 技术 标准 化 的 机 构 ASC X3 ( 现 已 更 名 为 


， 一 些 新 的 特性 不 断 被 各 种 编译 器 实现 并 添加 进来 。 于 是 建立 一 个 新 的 “无 歧义 、 与 具体 平台 无 关 的 C 语 言 定义 ”就 成 为 越 来 越 重 要 的 事情 。1983 稀 


国 国家 标准 


FEF. 


国 


《The C Programming Language》 第 2 版 出 版 发 行 ， 书 中 内 容 根据 ANSI C (C89) 进行 了 更 新 。1990 征 
F 是 1SO C (又 称 为 C90) 诞生 。 与 C89 相 比 ，C90 除 了 标准 文档 的 印刷 编排 细节 有 些 不 同 外 (主要 表现 在 删除 了 “Rationale” 一 节 ， 并 把 文档 的 格式 与 段 


际 信息 技术 标准 委员 会 (International Committee for Information Technology 


于 起 草 关 于 (语言 的 标准 草案 。1989 和 


FE， 在 ISO/IEC JTC1/SC22/WG14 ( 即 ISO/IEC 联 合 技术 第 | 


FE，ANSI 正 式 通 过 C 语 言 标 准 草案 ， 至 此 该 标准 成 为 美国 国家 标 


国 


委员 会 第 14 工 


委员 会 第 22 分 : 


落 编码 作 了 改动 ) ， 它 们 在 技术 上 是 完全 一 样 的 。 到 目前 为 止 ， C89 是 C 语 言 运用 得 最 广泛 的 标准 ， 基 本 上 所 有 的 C 语 言 编译 器 都 完全 支持 该 标准 。 相 对 于 “K&R C”，C89 主 要 做 了 以 下 几 方 面 的 改进 : 


“ 增加 了 新 特性 一 一 原型 。 原 型 是 函数 声明 的 扩展 ， 它 使 得 编译 器 很 容易 根据 函数 的 定义 检查 函数 的 用 法 。 


“ 增加 了 一 些 新 的 关键 字 ， 如 enum、const、volatile、signed 与 void。C89 的 关键 字 见 表 1-1。 


表 1-1 C89 关 键 字 表 


auto double int struct else long switch 


case enum register typedef extern return union 


“ 除 此 之 外 ，C89 还 做 了 许多 其 他 的 改进 ， 如 增强 了 预 处 理 指令 ， 定 义 了 相关 的 宏 ， 允 许 将 结构 本 身 作为 参数 传递 给 函数 ， 从 “无 符号 保留 ” 转 到 “ 值 保 留 ” 等 。 


自 ISO C (C90) 推出 之 后 ，ISO 又 于 1994 年 与 1996 年 分 别 出 版 了 C90 的 技术 勘误 文档 ， 更 正 了 一 些 印刷 错误 ， 同 时 ， 在 1995 年 还 通过 了 一 份 C90 的 技术 补充 ， 这 份 补充 对 C90 进 行 了 微小 扩充 ， 扩 充 后 
的 ISO C 被 称 为 C95。 


1999 年 ，ANSI 和 ISO 又 通过 了 最 新 版 本 的 C 语 言 标 准 和 技术 勘误 文档 ， 该 标准 被 称 为 C99。 这 里 需要 说 明 的 是 ， 与 C89 不 同 ， 并 非 市 面 上 所 有 的 编译 器 都 支持 C99， 并 且 有 的 编译 器 只 支持 C99 的 部 分 新 
特性 。 相 对 于 C89，C99 主 要 做 了 以 下 几 方面 的 改进 : 


“ 增加 了 trestrict 与 inline 关 键 字 。 


“ 新 增 Bool、_Complex 与 Lmaginary 3 种 数据 类 型 ， 如 C99 中 定义 的 复数 类 型 为 : float_Complex、float_Imaginary、double_Complex、double_Imaginary、long double_Complex 与 long double_Imaginary。 
: 增强 数组 的 功能 ， 支 持 可 变 长 数组 等 。 

“ 支持 复合 赋值 。 

“ 增强 预 处 理 程序 ， 如 引入 _Pragma 运 算 符 ， 并 增加 了 一 些 内 部 宏 等 。 

“ 支持 柔性 数组 结构 成 员 ， 即 允许 结构 中 的 最 后 一 个 元 素 是 未 知 大 小 的 数组 。 


由 于 技术 的 发 展 日 新 月 异 ， 因 此 虽然 C99 还 没有 得 到 完全 支持 ， 但 在 2007 年 ， 标 准 委员 会 就 又 开始 起 草 新 的 C 语 言 标准 来 取代 现 有 的 C99 标 准 ， 该 标准 命名 为 CIX，C1X 是 一 个 非 正式 名 字 。2011 年 12 
月 ，ANSI 正 式 采 纳 了 ISO/IEC 9899: 2011 标 准 ， 即 C11 标 准 。 相 对 于 C99，C11 主 要 做 了 如 下 几 方 面 的 改进 : 


: 采用 新 的 对 齐 规范 ， 包 括 _Alignas 说 明 符 、_Alignof 运 算 符 、aligned_alloc 函 数 与 <stdalign.h> 头 文件 。 
“ 增加 _Noreturn 函 数 标记 。 

“ 增加 _Generic 关 键 词 。 

“ 增加 静态 断言 _Static_assert () 。 

“ 删除 gets () 函数 ，C99 中 已 经 将 此 函数 标记 为 过 时 ， 推 荐 新 的 替代 函数 gets s () 。 
:采用 新 的 fopen () 模式 。 

“ 增加 匿名 结构 体 / 联 合体 。 

: 支持 多 线程 技术 ， 包 括 _ Thread_ local 与 头 文件 <threads.h>。 

“ 增加 _Atomic 类 型 修饰 符 和 头 文件 <stdatomic.h>。 

“ 带 边 界 检查 (bounds-checking) 的 函数 接口 ， 定 义 了 新 的 安全 的 函数 ， 例 如 fopen_s () 、strcat s () 等 。 
“ 改进 Unicode 支 持 与 头 文件 <ucharh>。 

“ 增加 quick_exit () 函数 作为 第 三 种 终止 程序 的 方式 。 

“ 可 以 创建 复数 的 宏 。 

“ 增加 更 多 处 理 浮 点 数 的 宏 。 


“struct timespec 成 为 time.h 的 一 部 分 ， 以 及 宏 TIME_UTC 和 函数 timespec_get () 。 


综 上 所 述 ， 可 以 用 图 1-2 来 直观 地 阐述 C 语 言 标准 的 发 展 历程 。 


1990 年 1995 年 1999 年 2011 年 
C90 本 C95 [> C99 BD Cll 


~- A 


图 1-2 CC 语言 标准 的 发 展 过 程 


在 GCC 编 译 器 中 ， 针 对 不 同 版 本 的 C 语 言 标 准 ， 可 以 通过 在 命令 行 中 使 用 “-std” 选 项 来 选择 所 需要 使 用 的 C 语 言 标准 版 本 。 


1) C89 或 者 C90 


-ansi 
-std=c90 


-std=iso9899: 1990 


2) C95 


-std=iso9899: 199409 


3) C99 


-std=c99 
-std=iso9899: 1999 


4) C11 


-std=cl1 
-std=iso9899: 2011 


5) 除 此 之 外 ， 如 果 需 要 在 GCC 中 使 用 C 扩 展 ， 还 可 以 通过 如 下 参数 形式 实现 : 


C89 或 者 C90: -std=gnu90 
C99: -std=gnu99 
C11: -std=gnull 


建议 2: 防止 整数 类 型 产生 回 绕 与 溢出 


到 C99 为 止 ，C 语 言 为 我 们 提供 了 12 个 相关 的 数据 类 型 关键 字 来 表达 各 种 数据 类 型 。 如 表 1-2 所 示 ，K&R C 提 供 了 7 个 ，C89/C90 新 增 了 2 个 ，C99 新 增 了 3 个 。 


表 1-2 C 的 数据 类 型 关键 字 


K&R C 的 关键 字 C89/C90 关键 字 (新 增 ) C99 关键 字 (新 增 ) 


int 

long 
short 
unsigned 
char 


float 


signed _Bool 
_Complex 


_Imaginary 


double 


整 型 是 C 语 言 最 基本 的 数据 类 型 ， 它 以 二 进 制 编码 的 方式 进行 存储 ， 具 体 可 以 包括 字符 、 短 整 型 、 整 型 和 长 整 型 等 。 例 如 ， 整 数 2 的 二 进 制 表示 为 10， 它 在 8 位 与 32 位 的 操作 系统 中 存储 方式 如 图 1-3 所 


8 位 存储 方式 : 


32 位 存储 方式 ， | 00000000 | 00000000 | 00000000 | 00000010 


图 1-3 


虽然 在 计算 机 中 整数 是 以 二 进 制 编码 方式 进行 存储 的 ， 但 为 了 便于 表达 ， 有 时 候 又 会 
进 制 之 间 能 够 很 方便 地 进行 转换 。 


整数 2 的 二 进 制 编码 存储 方式 


十 六 进 制 编码 方式 表示 (例如 ， 在 32 位 操作 系统 下 ， 整 数 2 的 十 六 进 制 编码 方式 为 0x00000002) ， 二 进 制 和 十 六 


与 此 同时 ， 整 数 类 型 又 可 分 为 有 符号 (signed) 和 无 符号 (unsigned) 两 种 类 型 ，limits.h 文 件 定义 了 整 型 数据 类 型 的 表达 值 范围 。 在 GCC 4.8.3 中 ，limits.h 文 件 定义 如 下 : 


疙 
和 ISO C99 Standard: 7.10/5.2.4.2.1 Sizes of integer types <limits.h> 
A 

#ifndef LIBC LIMITS 日 

#define LIBC LIMITS H 四 


#include <features.h> 
/* Maximum length of any multibyte character in any locale. 
We define this value here since the gcc header does not define 
the correct value. */ 
#define MB LEN MAX 16 
/* If we are not using GNU CC we have to define all the symbols ourself. 
Otherwise use gcc's definitions (see below) . */ 
#if ! defined _GNUC || _GNUC <2 
/* We only protect from multiple inclusion here, because all the other 


#include's protect themselves, and in GCC 2 we may #include next through 


multiple copies of this file before we get to GCC's. */ 
# ifndef LIMITS H 
# define LIMITS H1 
#include <bits/wordsize.h> 
/* We don't have #include next. 
Define ANSI <limits.h> for standard 32-bit words. */ 
/* These assume 8-bit ‘char's, 16-bit “short int's, 
and 32-bit ‘int's and ‘long int's. */ 
/* Number of bits in a ‘char'. 守 Af 
# define CHAR BIT 8 
/* Minimum and maximum values a ‘signed char' can hold. */ 


# define SCHAR MIN (-128) 

# define SCHAR MAX 127 

/* Maximum value an ‘unsigned char' can hold. (Minimum is 0.) */ 

# define UCHAR MAX 255 

/* Minimum and maximum values a ‘char' can hold. */ 

# ifdef CHAR UNSIGNED 

# define CHAR MIN 0 

# define CHAR MAX UCHAR MAX 

# else 

# define CHAR MIN SCHAR MIN 

# define CHAR MAX SCHAR MAX 

# endif 加 

/* Minimum and maximum values a ‘signed short int' can hold. */ 

# define SHRT MIN (-32768) 

# define SHRT MAX 32767 

/* Maximum value an ‘unsigned short int' can hold. (Minimum is 0.) */ 
# define USHRT MAX 65535 

/* Minimum and maximum values a ‘signed int' can hold. */ 

# define INT MIN (-INT MAX - 1) 

# define INT MAX 2147483647 

/* Maximum valuve an ‘unsigned int' can hold. (Minimum is 0.) */ 

# define UINT MAX 4294967295U 

/* Minimum and maximum values a ‘signed long int' can hold. */ 

# if WORDSIZE == 64 

# 
# 
# 
# 
# 
# 
# 
# 
# 
# 
# 
# 
# 
# 
# 
# 


define LONG MAX 9223372036854775807L 
else 
define LONG MAX 2147483647L 
endif 三 
define LONG MIN (-LONG MAX - 1L) 
* Maximum value an ‘unsigned long int' can hold. (Minimum is 0.) */ 
if WORDSIZE == 64 
define ULONG MAX 18446744073709551615UL 
else 
define ULONG MAX 4294967295UL 
endif 时 
ifdef USE ISOC99 
* Minimum and maximum values a ‘signed long long int' can hold. */ 
define LLONG MAX 9223372036854775807LL 
define LLONG MIN (-LLONG MAX - 1LL) 
* Maximum value an ‘unsigned long long int' can hold. (Minimum is 0.) x 
define ULLONG MAX 18446744073709551615ULL 
endif /* ISO C99 */ 
# endif Zu limits,h */ 
#endif /* GCC 2, #*/ 
#endif /* ! _LIBC LIMITS H_ */ 


/* The <limits.h> files in some gcc versions don't define LLONG MIN, LLONG MAX, 
and ULLONG MAX. Instead only the values gcc defined for ages are available. */ 
#if defined USE ISOC99 && defined _GNUC 
# ifndef LLONG MIN 
# define LLONG MIN (-LLONG MAX-1) 
# endif 网 加 
# ifndef LLONG MAX 
# define LLONG MAX __LONG LONG MAX 
# endif 
# ifndef ULLONG MAX 
# define ULLONG MAX (LLONG MAX * 2ULL + 1) 
# endif 3 
#endif 


表 1-3 描 述 了 以 ANSI 标 准 定义 的 整数 类 型 。 


表 1-3 ANSI 标 准 定义 的 整数 类 型 


类 型 位 数 最 小 取 值 范围 
char 8 -127 ~ 127 
unsigned char 8 0 ~ 255 
signed char 8 -127 ~ 127 
int 16/32 -32767 ~ 32767 
unsigned int 16/32 0 ~ 65535 
signed int 16/32 -32767 ~ 32767 
short int 16 -32767 ~ 32767 
unsigned short int 16 0 ~ 65535 
signed short Int 16 -32767 ~ 32767 
long lnt 32 -2147483647 ~ 2147483647 
unsigned long int 32 0 ~ 4294967295 
signed long int 32 -2147483647 ~ 2147483647 
long long int 64 A 
unsigned long long int 64 | 


简单 地 讲 ， 有 符号 和 无 符号 整数 间 的 区 别 在 于 怎样 解释 整数 的 最 高 位 。 如 果 定 义 一 个 有 符号 整数 ， 则 C 编 译 程序 生成 的 代码 认为 该 数 最 高 位 是 符号 标志 : 符号 标志 为 0， 则 该 数 为 正 ， 符 号 标志 为 1， 则 
该 数 为 负 。 


负数 采用 2 的 补 码 的 形式 来 表示 ， 即 对 原 码 各 位 求 反 (符号 位 除外 ) ， 再 将 求 反 的 结果 加 1， 最 后 将 符号 位 设置 为 1。 例 如 ， 在 32 位 操作 系统 中 ， 有 符号 整数 -2 的 存储 方法 如 下 。 


第 一 步 : 取 绝对 值 2 的 二 进 制 编码 。 
00000000 00000000 00000000 00000010 
第 二 步 : 求 反 (符号 位 除外 ) 。 
O1111111 11111111 11111111 11111101 
第 三 步 : 将 求 反 的 结果 加 1。 


01111111 11111111 11111111 11111110 


第 四 步 : 将 符号 位 设置 为 1。 


六 


因此 ， 有 符号 整数 -2 的 二 进 制 编码 为 11111111 11111111 11111111 11111110， 十 六 进 制 编码 为 0xFFFFFFFE。 


最 后 还 需要 说 明 的 是 ， 当 类 型 修饰 符 被 自身 使 用 时 ( 即 它 不 在 基本 类 型 之 前 时 ) ， 假 定 其 为 int 型 。 也 就 是 说 ， 表 1-4 的 两 种 类 型 是 等 效 的 。 


表 1-4 等 效 的 整 教 类 型 


修饰 符 等 效 于 修饰 符 等 效 于 


signed signed int long long int 


unsigned unsigned int short short int 


建议 2-1: char 类 型 变量 的 值 应 该 限制 在 signed char 与 unsigned char 的 交集 范围 内 


大 家 应 该 都 知道 ，C 语 言 设 计 char 类 型 的 目的 是 存储 字母 和 标点 符号 之 类 的 字符 。 实 际 上 ，char 类 型 存储 的 是 整数 而 不 是 字符 。 为 了 处 理 字符 ， 计 算 机 使 用 一 种 数字 编码 的 方式 来 操作 ， 如 常见 的 ASCII 
就 是 用 特定 整数 来 表示 特定 字符 的 。 例 如 ， 要 在 ASCII 码 中 存储 字母 B， 实 际 上 只 需要 存储 整数 66。 因 此 ， 可 以 使 用 下 面 的 方法 为 char 类 型 的 变量 赋值 。 


Char c=66; 


在 ASCIl 码 中 ， 整 型 数据 66 在 char 类 型 的 大 小 范围 之 内 ， 所 以 这 样 的 赋值 方式 是 完全 允许 的 ， 但 不 推荐 使 用 这 样 的 赋值 方式 。 


这 里 需要 注意 的 是 ， 采 用 这 样 的 赋值 方式 有 个 前 提 条 件 ， 即 必须 是 在 ASCII 码 中 。 有 时候 不 同 的 计算 机 系统 也 会 使 用 完全 不 同 的 编码 ， 如 一 些 IBM 主 机 就 使 用 一 种 称 为 EBCDIC (Extended Binary- 
Coded Decimal Interchange Code， 扩充 的 二 进 制 编码 的 十 进 制 交 换 码 ) 的 编码 方式 。 如 果 采 用 的 是 其 他 编码 方式 ， 这 样 的 赋值 方式 所 得 到 的 结果 就 不 一 样 了 。 因 此 ， 我 们 推荐 使 用 字符 常量 的 方式 进行 
赋值 ， 如 下 面 的 代码 所 示 : 


char c='B'; 


除 此 之 外 ， 在 表 1-3 中 还 可 以 看 出 ， 默 认 的 char 类 型 可 以 是 signed char 类 型 ( 取 值 范围 为 -127~127) ， 也 可 以 是 unsigned char 类 型 ( 取 值 范围 为 0~255) ， 具体 取决 于 编译 器 。 也 就 是 说 ,不同 的 机 
器 上 char 可 能 拥有 不 同 范围 的 值 。 因 此 ， 为 了 使 程序 保持 良好 的 可 移植 性 ,我 们 所 声明 的 char 类 型 变量 的 值 应 该 限制 在 signed char 与 unsigned char 的 交集 范围 内 。 例 如 ，ASCII 字 符 集中 的 字符 都 在 这 个 
范围 内 。 


当然 ， 在 一 个 把 字符 当做 整数 值 的 处 理 程序 中 ， 可 以 显 式 地 把 这 类 变量 声明 为 signed char 或 unsigned char， 从 而 确保 不 同 的 机 器 中 在 字符 是 否 为 有 符号 值 方面 保持 一 致 ， 以 此 来 提高 程序 的 可 移植 
性 。 另 一 方面 ， 许 多 处 理 字 符 的 库 函 数 把 它们 的 参数 都 声明 为 char， 如 果 我 们 把 这 些 参数 显 式 地 声明 为 signed char 或 unsigned char， 可 能 会 带 来 兼容 性 问题 ， 并 且 有 些 机 器 处 理 signed char 的 效率 更 高 
些 ， 如 果 硬 要 把 它 改 成 unsigned char， 效 率 很 可 能 会 因此 而 受 损 。 所 以 把 所 有 的 char 变 量 统一 声明 为 signed char 或 unsigned char 未 必 就 是 好 的 解决 方案 。 因 此 ， 最 佳 的 解决 方案 就 是 把 char 类 型 变量 的 
值 限制 在 signed char 与 unsigned char 的 交集 范围 内 ， 这 样 既 可 以 获得 最 大 程度 的 可 移植 性 ， 同 时 又 不 会 钙 牲 效率 。 


建议 2-2: 使 用 显 式 声明 为 signed char 或 unsigned char 的 类 型 来 执行 算术 运算 


在 讨论 本 建议 话题 之 前 ， 我 们 先 看 看 下 面 的 这 段 代 码 的 输出 结果 ， 如 代码 清单 1-1 所 示 。 


代码 清单 1-1 “char 使 用 示例 


#include <stdio.h> 
int main (void) 
{ 
char c=150; 
int i=900; 
printf ("i/c=%d\n", i/c) ; 
return 0; 


在 代码 清单 1-1 中 ， 或 许 大 多 数 人 都 认为 它 输 出 的 结果 应 该 是 “i/c=6”， 但 实际 的 输出 结果 却 大 相 径 庭 。 前 面 已 经 讲 过 ，char 类 型 的 变量 c 可 以 有 两 种 类 型 : 有 符号 的 (signed char) 和 无 符号 的 
(unsigned char) 。 这 里 假设 char 是 8 位 的 补 码 字符 类 型 ， 那 么 代码 清单 1-1 就 可 能 输出 “i/c=-8” (signed char) 或 者 “i/c=6” (unsigned char) 两 种 结果 。 其 中 ， 在 Microsoft Visual Studio 2010 
与 GCC 中 的 输出 结果 都 是 “i/c=-8”， 如 图 1-4 与 图 1-5 所 示 。 


ommand Proapt (2010) 
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图 1-4 代码 清单 1-1 在 Microsoft Visual Studio 2010 中 的 输出 结果 
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图 1-5 代码 清单 1-1 在 GCC 中 的 输出 结果 


其 实 ， 导 致 这 种 结果 最 根本 的 原因 就 在 于 我 们 不 能 够 准确 地 确定 char 类 型 的 变量 c 究 竟 是 signed char 类 型 还 是 unsigned char 类 型 。 因 此 ， 我 们 把 决策 权 交 给 编译 器 ， 而 不 同 的 编译 器 默认 的 char 类 型 
是 不 同 的 ， 所 以 最 后 得 到 的 结果 也 就 不 相同 。 


解决 这 种 问题 的 办 法 很 简单 ， 就 是 显 式 地 将 char 类 型 的 变量 c 声 明 为 signed char 或 unsigned char 类 型 ， 这 样 可 保证 结果 的 唯一 性 ， 如 代码 清单 1-2 所 示 。 


代码 清单 1-2 ”unsigned char 使 用 示例 


#include <stdio.h> 
int main (void) 


unsigned char c=150; 

int i=900; 

printf ("i/c=%d\n", i/c) ; 
return 0; 


这 样 就 显 式 地 将 char 类 型 的 变量 c 声 明 为 unsigned char 类 型 ， 现 在 ， 后 面 的 除法 运算 (i/c) 与 char 的 符号 无 关 ， 所 以 代码 清单 1-2 输 出 的 结果 为 “i/c=6”。 


C 语 言 标准 规定 size t 是 一 种 无 符号 整数 类 型 ， 编 译 器 可 以 根据 操作 系统 的 不 同 而 用 typedef 来 定义 不 同 的 size t 类 型 ， 即 在 不 同 的 操作 系统 上 所 定义 的 size_t 可 能 不 一 样 。 例 如 在 32 位 操作 系统 上 可 以 将 
size _t 定 义 为 unsigned int 类 型 ， 而 在 64 位 操作 系统 上 则 可 以 定义 为 unsigned long int 类 型 ， 甚 至 还 可 以 将 size t 定 义 为 unsigned long long int 类 型 等 ， 如 下 面 的 示例 所 示 。 


在 GCC 的 stddef.h 文 件 中 将 size t 定 义 为 : 


#ifndef _ SIZE TYPE 
#define _ SIZE TYPE ”long unsigned int 

#endif 

#if ! (defined (_ GNUG ) && defined (size t) ) 
typedef _ SIZE TYPE size t; 
#ifdef _ BEOS 


typedef Iong ssize t; 


#endif /* _BEOS _*/ 


而 在 VC++2010 的 crtdefs.h 文 件 中 将 size t 定 义 为 : 


#ifndef _SIZE T DEFINED 
#ifdef _WIN64 


typedef unsigned int64 size t; 
#else 和 
typedef _W64 unsigned int size t; 
#endif 

#define _SIZE T DEFINED 

#endif 


从 上 面 的 定义 可 以 看 出 ，size_t 类 型 的 引入 增强 了 程序 在 不 同 平台 上 的 可 移植 性 ， 而 它 也 正 是 为 了 方便 系统 之 间 的 移植 而 定义 的 。size_t 类 型 的 变量 大 小 足以 保证 存储 内 存 中 对 象 的 大 小 ， 任 何 表示 对 象 
长 度 的 变量 ， 包 括 作为 大 小 、 索 引 、 循 环 计数 和 长 度 的 整数 值 ， 都 可 以 声明 为 size_t 类 型 。 比 如 我 们 常用 的 sizeof 操 作 符 的 结果 返回 的 就 是 size_t 类 型 ， 该 类 型 保证 能 容纳 实现 所 建立 的 最 大 对 象 的 字 节 大 
小 。size_t 类 型 的 限制 是 由 SIZE_MAX 宏 指定 的 。 


接 下 来 看 看 size_t 类 型 的 使 用 示例 ， 如 代码 清单 1-3 所 示 。 


代码 清单 1-3 ”size_t 类 型 的 使 用 示例 


Char *copy (size t n, const char *str) 


ob 4 
Char *p; 
if (n= 0) 
{ 

/* 处 理 n==0 的 情况 */ 
} 
p= (char *) malloc (n) ; 
if (p = NULL) 
{ 

/* 处 理 p= 一 NULL 的 情况 */ 
} 
二 
{ 

E[il = St 


return p; 


不 难 发 现 ， 代 码 清单 1-3 中 存在 着 一 个 严重 的 问题 : 当 p 所 引用 的 动态 分 配 的 缓冲 区 在 n>1INT_MAX 时 将 会 发 生 溢 出 。 我 们 知道 ，int 类 型 的 限制 是 由 INT_MAX 宏 指定 的 ， 而 size_t 类 型 代表 的 是 一 个 无 符 
号 整数 类 型 ， 它 可 能 包含 一 个 大 于 INT_MAX 的 值 。 因 此 ， 当 n 的 值 为 0<n<=INT_MAX 时 ， 执 行 循 环 n 次 ， 代 码 如 预期 一 样 正 常 运行 ; 但 当 n 的 值 为 INT_MAX<n<=SIZE_MAX， 且 整 型 变量 的 增值 超过 
INT_MAX 时 ，;i 的 值 将 是 从 INT_MIN 开 始 的 负 值 。 这 时 ，p0i 所 引用 的 内 存 位 置 是 在 p 所 引用 的 内 存 之 前 ， 这 就 会 导致 写 入 发 生 在 数组 边界 之 外 。 


因此 ， 为 了 避免 发 生 这 种 潜在 性 的 错误 ， 应 该 将 变量 也 声明 成 size_t 类 型 ， 如 代码 清单 1-4 所 示 。 


代码 清单 1-4 ”代码 清单 1-3 的 解决 方法 


Char *copy (size 七 n, const char *str) 


size 七 i; 
Char *p; 
if (n = 0||n>SIZE MAX) 
{ 
/* 处 理 n==0 的 情况 */ 


. = (char *) malloc (n) ; 

if (p 一 NULL) 

: /* 处 理 p==NULL 的 情况 */ 
OE Wa Dn dhs ++i ) 
Pli] = *StT++; 


return p; 


除了 size_t 类 型 之 外 ，ISO/JIEC TR 24731-1: 2007 中 引入 了 一 种 新 类 型 rsize t， 虽 然 它 被 定义 为 size_t 类 型 ， 但 它 明确 地 表示 是 用 于 保存 单个 对 象 的 长 度 的 。 


在 VC++2010 的 crtdefs.h 文 件 中 将 rsize_t 定 义 为 : 


#if __ STDC WANT SECURE LIB 
#ifndef RSIZE T DEFINED 
typedef size t rsize t; 
#define RSIZE T DEFINED 
#endif 

#endif 


在 支持 rsize _t 类 型 的 代码 中 ， 你 可 以 检查 对 象 的 长 度 ， 验 证 它 不 大 于 RSIZE_MAX (一 个 正常 单个 对 象 的 最 大 长 度 ) ， 库 函数 也 可 以 使 用 rsize_t 进 行 输入 校 验 。 


在 VC++2010 的 limits.h 文 件 中 将 RSIZE_MAX 定 义 为 : 


#if STDC WANT SECURE LIB 
#ifndef RSIZE MAX i 
#define RSIZE MAX SIZE MAX 
#endif 

#endif 


这 样 就 消除 了 示例 整数 溢出 的 可 能 性 ， 现 在 我 们 可 以 将 代码 清单 1-3 中 的 变量 i 声明 成 rsize_t 类 型 ， 同 时 也 可 将 参数 n 修 改 成 rsize_t 类 型 ， 并 与 RSIZE_MAX 进 行 比较 以 验证 数据 的 合法 范围 ， 如 代码 清单 
1-5 所 示 。 


代码 清单 1-5 ”代码 清单 1-3 的 rsize_t 解 决 方法 


Char *copy (rsize t n, const char *str) 
{ 

roiwe 七 于 

Char *p; 

if (n= 0 || n> RSIZE MAX) 

{ 


} 

p= (char *) malloc (n) ; 
if (p = NULL) 

{ 


/* 处 理 n==0|| n > RSIZE_MAX 的 情况 */ 


/* 处 理 p==NULL 的 情况 */ 
} 
for (i=0; i<n; ++i) 
f 
PB[i] = *etrt+; 
} 


return p; 


建议 2-4: 禁止 把 size t 类 型 和 它 所 代表 的 真实 类 型 混用 


我 们 知道 ，size_t 类 型 代表 的 是 一 种 无 符号 整数 类 型 ， 现 在 有 这 样 一 个 问题 : 既然 size_t 类 型 是 一 种 无 符号 整数 类 型 ， 那 么 它 是 否 可 以 直接 与 它 所 代表 的 真实 实际 类 型 混合 使 用 呢 ? 带 着 这 个 问题 ， 我 们 


来 看 下 面 这 段 代 码 : 


unsigned int x; 
size t y; 
区 


在 上 面 的 代码 中 ， 变 量 x 被 声明 为 unsigned int 类 型 ( 即 无 符号 整数 类 型 ) ， 变 量 y 虽 然 被 声明 为 size_t 类 型 ， 但 它 同 样 是 一 种 无 符号 整数 类 型 。 因 此 ， 从 表面 上 看 , 语句 “x=y” 完 全 是 可 行 的 ， 但 实际 


情况 并 非 如 此 。 


上 面 已 经 阐述 过 ，size _t 类 型 在 不 同 的 平台 上 很 可 能 代表 的 是 unsigned int、unsigned long int 或 者 unsigned long long int 类 型 。 当 代表 unsigned int 类 型 时 ， 执 行 语句 “x=y” 不 会 出 现 什么 问题 ; 


但 如 果 代表 的 是 unsigned long int 或 unsigned long long int 类 型 ， 那 么 执行 语句 “x=y” 时 ， 就 可 能 把 y 的 高 位 给 截 掉 ， 从 而 导致 结果 出 错 。 因 此 ， 我 们 干 万 不 能 在 程序 中 混用 size_t 类 型 和 它 所 代表 的 真 


实 类 型 ， 这 一 点 一 定 要 注意 。 


建议 2-5: 小 心 使 用 无 符号 类 型 带 来 的 陷阱 


有 过 面试 经 历 的 同学 可 能 曾 碰 到 如 代码 清单 1-6 所 示 的 问题 。 


代码 清单 1-6 一道 典型 的 面试 示例 


#include <stdio.h> 
int main (void) 
{ 
int array[] = { 1 2 3 4, 5 & }s 
int 1 = =1; 
if ( i <= sizeof (array) ) 
{ 


printf (" i <= sizeof (array) \n") ; 


printf (" i > sizeof (array) \n") ; 
i 


return 0; 


对 代码 清单 1-6 进 行 初步 分 析 可 以 得 出 ，sizeof (array) 的 返回 结果 为 24， 而 i 的 值 为 -1， 因 此 执行 语句 “if (i<=sizeof (array) ) ”所 返 
为 “i<=sizeof (array) ”。 但 实际 情况 并 非 如 此 ， 其 输出 结果 如 图 1-6 所 示 。 
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图 1-6 代码 清单 1-6 的 输出 结果 


那么 ， 究 竟 是 什么 原因 导致 出 现 这 样 的 输出 结果 呢 ? 


回 的 结果 应 该 为 true， 即 输出 结果 


98.309319 .Bt for 80x86 


其 实 ， 要 回答 这 个 问题 并 不 难 。 我 们 知道 sizeof () 的 返回 结果 是 size t 类 型 ， 而 size_t 类 型 是 一 种 无 符号 整数 类 型 。 当 有 符号 整数 类 型 和 无 符号 整数 类 型 进行 运算 时 ， 有 符号 整数 类 型 会 先 自动 转化 成 


无 符号 整数 类 型 (请 特别 注意 这 一 点 ) 。 


因此 ， 在 代码 清单 1-6 中 ， 当 i 与 sizeof (array) 进行 比较 时 ， 即 执行 语句 “if (i<=sizeof (array) ) ”， 诊 自动 升级 为 无 符号 整数 类 型 。 


又 因为 的 值 为 -1， 在 它 转换 为 无 符号 整数 类 型 后 就 变 成 一 个 


非常 大 的 正 整数 (如 -1 在 32 位 机 器 上 存储 为 0xffffffff， 而 它 被 解释 为 无 符号 整数 时 就 是 232-1， 即 4294967295) ， 远 远大 于 sizeof (array) 的 返回 结果 24。 


为 了 加 深 读 者 的 理解 ， 我 们 再 来 看 代码 清单 1-7 所 示 的 这 个 例子 。 


代码 清单 1-7 无 符号 类 型 运算 示例 


#include<stdio.h> 

int main (void) 
int a = 3; 
unsigned int b = 4; 


4 光洁 
(a-b) >>1);，; 
return 0; 


在 代码 清单 1-7 中 ， 当 执行 语句 “a-b” 时 ， 变 量 a 会 自动 由 int 类 型 转换 为 unsigned int 类 型 ， 再 与 变量 b 执 行 减 法 运算 ( 即 “a-b”) ，“a-b” 的 运算 结果 为 0xffffffff。 当 程序 使 用 “%d” (有 符号 十 
进 制 整数 ) 格式 输出 时 ，0xffffffff 被 转换 为 -1;， 当 程序 使 用 “%u” (无 符号 十 进 制 整 数 ) 格式 输出 时 ，0xffffffff 被 转换 为 4294967295; 最 后 ， 程 序 执行 “0xffffffff> > 1” 运 算 时 ， 其 运算 结果 为 
0x7fffffff。 当 程序 使 用 “%d” (有 符号 十 进 制 整数 ) 格式 输出 时 ，0x7fffffff 被 转换 为 2147483647。 代 码 清单 1-7 的 输出 结果 如 图 1-7 所 示 。 
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图 1-7 代码 清单 1-7 的 输出 结果 


两 个 例子 可 以 看 出 ， 将 有 符号 类 型 与 无 符号 类 型 混合 使 用 是 很 危险 的 。 因 此 ， 我 们 一 定 要 小 心 这 个 数据 转换 陷阱 ， 尽 量 少 在 代码 中 使 用 无 符号 类 型 ， 以 免 增 加 不 必要 的 复杂 性 。 尤 其 是 不 要 仅仅 


回 


因为 无 符号 数 不 存在 负 值 而 用 它 来 表示 某 些 数量 (如 年 龄 、 人 口 等 无 负数 的 值 ) 。 建 议 尽 量 使 用 像 int 这 样 的 类 型 ， 这 样 在 设计 升级 混合 类 型 的 复杂 细节 时 ， 就 不 必 担 心 边界 情况 了 (比如 不 用 担心 -1 被 翻译 


为 非常 大 的 正 整数 ) 。 如 果 必 须 使 用 无 符号 类 型 ， 则 应 该 在 表达 式 中 使 用 强制 类 型 转换 ， 使 操作 数 均 为 有 符号 类 型 或 者 无 符号 类 型 ， 这 样 就 不 必 由 编 译 器 来 选择 结果 的 类 型 ， 从 而 避免 存在 潜在 错误 的 可 能 
性 。 比 如 ， 我 们 可 以 通过 强制 转换 将 代码 清单 1-6 改 写 为 代码 清单 1-8。 


代码 清单 1-8 ”代码 清单 1-6 的 解决 方法 


#include <stdio.h> 
int main (void) 


{ 


int array[] = { 1, 2, 3, 4, 5, 6 }; 


int 1 = ~1; 
if ( i <= (int) sizeof (array) ) 
{ 
printf (" i <= sizeof (array) \n") ; 
} 
else 
{ 
printf (" i > sizeof (array) \n") ; 
} 
return 0; 


在 代码 清单 1-8 中 ， 我 们 将 语句 “if (i<=sizeof (array) ) ” 改 成 “if (i<= (int) sizeof (array) ) ”， 也 就 是 通过 强制 类 型 将 其 转换 成 int 类 型 ， 因 而 程序 的 输出 结果 为 j<=sizeof (array) 。 


建议 2-6: 防止 无 符号 整数 回 绕 


C99 第 6.2.5 节 的 第 9 条 规定 是 : 涉及 无 符号 操作 数 的 计算 永远 不 会 产生 溢出 ， 因 为 无 法 由 最 终 的 无 符号 整 型 表示 的 结果 将 会 根据 这 种 最 终 类 型 可 以 表示 的 最 大 值 加 1 执行 求 模 操作 。 也 就 是 说 ， 如 果 数 值 
超过 无 符号 整 型 数据 的 限定 长 度 时 就 会 发 生 回 绕 ， 即 如 果 无 符号 整 型 变量 的 值 超 过 了 无 符号 整 型 的 上 限 ， 就 会 返回 0， 然 后 又 从 0 开始 增 大 ; 如 果 无 符号 整 型 变量 的 值 低 于 无 符号 整 型 的 下 限 ， 那 么 就 会 到 达 
无 符号 整 型 的 上 限 ， 然 后 从 上 限 开始 减 小 。 这 就 像 一 个 人 绕 着 跑道 跑步 一 样 ， 绕 了 一 圈 ， 又 返回 到 出 发 点 ， 因 此 称 为 回 绕 。 


为 了 加 深 大 家 对 无 符号 整数 运算 产生 回 绕 的 理解 ， 我 们 继续 来 看 代码 清单 1-9 所 示 的 一 个 简单 例子 。 


代码 清单 1-9 无 符号 整数 运算 示例 


#include <stdio.h> 
int main (void) 


{ 


在 代码 清单 1-9 中 ， 我 们 定义 了 3 个 无 符号 整 型 变量 a、b 与 。 其 中 将 变量 a 的 值 初始 化 为 4294967295 ( 即 在 32 位 机 器 上 存储 为 0xffffffff) 。 当 程序 执行 语句 “a+b” 时 ， 其 结果 超出 了 无 符号 整 型 的 限 
定 值 (UINT_MAX: 0xffffffff) ， 于 是 便 产 生 向 下 


unsigned int a = 4294967295; 
unsigned int b = 2; 
unsigned int c=4; 

Printf ("%u\n", a+b); 
PeintE ("Sen Db =6) 3 
return 0; 


回 


绕 ， 因 此 输出 的 结果 为 1 ( 即 0xffffffff+ 0x00000002=0x00000001) ; 当 程 序 执行 语句 “b-c” 时 ， 其 结果 为 负数 ， 于 是 便 产 生 向 上 回 绕 ， 因 此 返回 的 


结果 为 4294967294 ( 即 0x00000002-0x00000004=0xfffffffe) 。 具 体 运 行 结果 如 图 1-8 所 示 。 
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图 1-8 代码 清单 1-9 的 输出 结果 


从 代码 清单 1-9 中 可 以 看 出 ， 无 符号 整数 运算 产生 的 回 绕 会 给 程序 带 来 严重 的 后 果 ， 尤 其 是 作为 数组 索引 、 指 针 运 算 、 对 象 的 长 度 或 大 小 、 循 环 计数 器 与 内 存 分 配 函 数 的 实 参 等 的 时 候 是 绝对 不 允许 产生 
回 绕 的 。 因 此 ， 针 对 无 符号 整数 的 运算 ， 应 该 采用 适当 的 方法 来 防止 产生 回 绕 。 例 如 ， 代 码 清单 1-10 演 示 了 如 何 简单 地 处 理 代码 清单 1-9 中 所 产生 的 回 绕 。 


代码 清单 1-10 ”代码 清单 1-9 的 解决 方法 


#include <stdio.h> 

#include <stdlib.h> 

int main (void) 

{ 
unsigned int a = 4294967295; 
unsigned int b = 2; 
unsigned int c=4; 
if (UINT MAX-a<b) 


/* 处 理 错误 条 件 */ 
} 
else 
{ 
printf ("Sn a + DD) 入 
i 
if (b<c) 
/* 处 理 错误 条 件 */ 
} 
else 
{ 
printf ("So :DbD-=0hs 
return 0; 


在 上 面 的 代码 中 ， 通 过 一 些 条 件 对 无 符号 操作 数 进行 测试 ， 从 而 避免 了 无 符号 操作 数 运 算 产 生 回 绕 。 在 实际 的 编程 环境 中 ， 无 符号 整数 的 回 绕 很 可 能 会 导致 缓冲 区 溢出 ， 甚 至 导致 攻击 者 可 执行 任意 代 
码 。 例 如 ， 程 序 绕 过 代码 中 的 大 小 判断 部 分 的 边界 检测 ， 可 以 导致 缓冲 区 溢出 ， 只 要 使 用 一 般 的 技术 就 能 够 利用 这 个 溢出 程序 。 演 示 示 例如 代码 清单 1-11 所 示 。 


代码 清单 1-11 ” 回 绕 导致 的 溢出 示例 


#include <stdio.h> 
#include <string.h> 
int main (int argc, char *argv[]) 
{ 
unsigned short s; 
Tk 
char buf[100]; 
if (argc < 3) 


return -1; 
bs 
i = atoi (argv[1]) 
Ss= i; 
if (s >= 100) 
{ 


printf ("拷贝 字 节 数 太 大 ， 请 退出 ! \n") ; 
return -1; 

} 

Printf ("s = %d\n", s); 

memcpy (buf, argv[2], i),; 

buf[i] = '\0'; 

printf ("成 功 拷 贝 sd 个 字 节 \n"， i) ; 

printf ("buf=%$s\n", buf) ; 

return 0; 


在 代码 清单 1-11 中 ， 程 序 需要 将 argv[2] 的 内 容 复 制 到 buf 中 ， 并 由 argv[1] 指 定 复制 的 字 节 数 。 这 里 需要 特别 注意 的 语句 是 “if (s> =100) ”， 利 用 该 语句 进行 了 相对 严格 的 大 小 检查 : 如 果 argv[1] 的 
值 大 于 等 于 buf 激 组 的 大 小 (100) ， 则 不 进行 复制 。 


运行 代码 清单 1-11， 当 我 们 执行 命令 “1-11 4 mawei” 时 ， 程 序 运行 正常 ， 并 成 功 地 复制 了 字符 串 “mawe” 到 buf 中 ， 运 行 结果 如 图 1-9 所 示 。 


Fisual Studio C 
E:\c\>1-1i 4 mawei 


也 
二 以 


buf =mawe 


图 1-9 ”代码 清单 1-11 (执行 “1-11 4 mawei”) 的 运行 结果 


当 我 们 执行 命令 “1-11 200 mawei” 时 ， 程 序 同样 运行 正常 ， 运 行 结果 如 图 1-10 所 示 。 
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图 1-10 代码 清单 1-11 (执行 “1-11 200 mawei”) 的 运行 结果 


可 当 我 们 执行 命令 “1-11 65536 mawei” 时 ， 程 序 却 意外 地 绕 过 了 大 小 检查 语句 “if (s> =100) ”来 执行 相关 的 操作 。 原 因 很 简单 ， 程 序 从 命令 行 参 数 中 得 到 一 个 整数 值 并 存放 在 整 型 变量 中， 然后 
这 个 值 被 赋予 了 unsigned short 类 型 的 整数 s， 由 于 s 在 内 存 中 是 用 16 位 进行 存储 的 ， 而 16 位 能 够 存储 的 最 大 十 进 制 数 是 65535 ( 即 unsigned short 存 储 的 范围 是 0~65535) ， 如 果 这 个 值 不 在 unsigned 
short 类 型 的 存储 范围 内 (0~65535) ， 就 会 产生 回 绕 。 因 此 ， 当 我 们 输入 65536 时 ， 系 统 将 会 转换 为 0， 从 而 绕 过 大 小 检查 语句 “if (s> =100) ”来 执行 余下 的 操作 。 可 是 这 里 我 们 将 buf 数 组 的 大 小 初始 
化 为 100， 所 以 在 执行 语句 “memcpy (buf，argv[2]，i) ”时 ， 程 序 就 会 产生 异常 而 导致 月 省。 其 运行 结果 如 图 1-11 与 图 1-12 所 示 。 


去 Visual Studio Comaand Proapt (2010) -日 | x| 
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图 1-11 代码 清单 1-11 (执行 “1-11 65536 mawei”) 的 运行 结果 
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图 1-12 ”代码 清单 1-11 (执行 “1-11 65536 mawei”) 导致 程序 前 溃 


其 实 , 这 类 Bug 很 常见 ， 而 且 很 容易 被 攻击 ， 这 都 是 由 于 无 符号 整数 发 生 回 绕 导 致 的 。 由 于 存在 回 绕 ， 当 一 个 有 符号 整数 被 解释 成 一 个 无 符号 整数 时 ， 它 可 能 变 得 很 大 。 比 如 ，-1 被 当成 无 符号 数 时 将 
会 是 十 进 制 的 4294967295， 它 是 32 位 整数 的 最 大 值 。 如 果 我 们 加 入 的 这 个 值 被 用 作 memcpy 的 参数 ，memcpy 就 会 试图 复制 4GB 数 据 ， 很 明显 这 可 能 导致 错误 或 破坏 堆栈 。 


[ 


除 此 之 外 ， 无 符号 整数 的 回 绕 最 可 能 被 利用 的 情况 之 一 就 是 利用 计算 结果 来 决定 将 要 分 配 的 缓冲 区 的 大 小 。 通 常情 况 下 ， 在 程序 需要 为 一 组 对 象 分 配 内 存 空间 时 ， 会 将 对 象 的 个 数 乘 以 单个 对 象 大 小 ， 


然后 用 所 乘 结果 来 作为 参数 ， 从 而 调用 malloc () 或 calloc () 函数 来 分 配 内 存 。 这 时 候 ， 只 要 我 们 能 够 控制 对 象 的 个 数 或 单个 对 象 的 大 小 ， 就 有 可 能 让 程序 分 配 错误 大 小 的 缓冲 区 。 演 示 示 例如 代码 清单 
1-12 所 示 。 


代码 清单 1-12 ” 回 绕 导 致 的 错误 分 配 缓冲 区 示例 


#include <stdio.h> 

#include <stdlib.h> 

int* copyarray (int *arr, int len) ; 

int main (int argc, char *argv[]) 

{ 
int arr[] = {1, 2, 3, 4, 5}; 
copyarray (arr, atoi (argv[1]) ); 
return 0; 

} 


int* copyarray (int *arr, int len) 


int i=0; 
int *newarray = (int *) malloc (len*sizeof (int) ) ; 


if (newarray == NULL) 
{ 
/* 处 理 newarray 一 NULL 的 情况 */ 
} 
printf ("为 newarray 成 功 分 配 %$d 字 节 内 存 \n"，len*sizeof (int) ) ; 
Printf ("循环 运行 次 数 : %d (0x%x) \n",，len, len) ; 
for (i = 0; < len; +) 
{ 
newarray[i] = arr[il]; 
} 


return newarray; 


在 代码 清单 1-12 中 ， 函 数 “int*copyarray (int*arr，int len) ”需要 将 arr 的 内 容 复制 到 newarray 中 ， 对 象 的 个 数 由 len 参 数 来 指定 。 其 中 ， 程 序 使 用 了 对 象 的 个 数 乘 以 单个 对 象 大 小 的 乘积 来 作为 
malloc () 函数 的 参数 ， 从 而 对 newarray 进 行内 存 分 配 ， 即 内 参 分 配 语句 为 “int*newarray= (int*) malloc (len*sizeof (int) ) ”。 


运行 代码 清单 1-12， 当 我 们 执行 命令 “1-12 8” 时 ， 程 序 运行 正常 ， 并 成 功 地 为 newarray 分 配 了 内 存 ， 并 将 arr 的 内 容 复制 到 newarray 中 ， 运 行 结果 如 图 1-13 所 示 。 
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功 分 配 32 字 世 内 


S80x8> 


图 1-13 ”代码 清单 1-12 (执行 “1-12 8”) 的 运行 结果 


这 样 看 来 ， 程 序 狐 似 没有 任何 问题 。 但 是 当 我 们 执行 命令 “1-12 1073741824” 时 ， 问 题 就 出 现 了 ， 抛 出 异常 “Unhandled exception at 0x004010d2 in 1-12.exe: 0xC0000005: Access violation 
writing location 0x00387000。”。 运 行 结果 如 图 1-14 所 示 。 


YNCNL2L-L2 1073741824 
分 配 g 字 节 内 行 
;让 1073741824<0x40000000> 


图 1-14 ”代码 清单 1-12 (执行 “1-12 1073741824”) 的 运行 结果 


是 什么 原因 导致 这 样 的 结果 呢 ? 


其 实 很 简单 ， 是 因为 函数 “int*copyarray (int*arr，int len) ”没有 检查 参数 len 而 导致 运算 回 绕 失败 。 在 通过 语句 “int*newarray= (int*) malloc (len*sizeof (int) ) ”给 newarray 分 配 内 存 时 ， 
这 里 将 参数 设置 为 1073741824 (十 六 进 制 是 0x40000000) ， 而 “sizeof (int) ”的 返回 结果 为 4 (十 六 进 制 是 0x4) 。 当 运算 表达 式 “0x40000000*0x4” 时 ， 就 发 生 了 无 符号 整数 运算 回 绕 ， 所 得 的 结果 
为 0x0 ( 即 0x40000000*0x4=0x0) 。 因 此 ， 为 newarray 分 配 的 内 存 为 0。 


除 此 之 外 ， 在 通过 语句 “int*newarray= (int*) malloc (len*sizeof (int) ) ”给 newarray 分 配 内 存 时 ， 由 于 参数 len 的 原因 而 造成 运算 回 绕 ， 所 以 我 们 可 以 利用 它 来 分 配 一 个 任意 长 度 的 缓冲 区 。 如 
上 面 将 len 参 数 设置 为 1073741824， 就 可 能 出 现在 没有 为 newarray 分 配 内 存 的 情况 下 ， 却 向 其 中 复制 了 数组 元 素 ， 而 且 循 环 的 次 数 还 非常 多 ， 严 重 时 会 造成 系统 骨 溃 。 当 然 ， 你 还 可 以 通过 选择 合适 的 值 赋 
给 len 参 数 以 使 得 循环 反复 执行 导致 缓冲 区 溢出 。 同 时 ， 还 可 以 通过 覆盖 malloc 的 控制 结构 来 执行 任意 恶意 代码 ， 从 而 实施 对 堆 溢 出 的 攻击 。 


\ 


在 本 节 的 最 后 ， 还 需要 说 明 的 是 ， 并 不 是 每 种 运算 符号 都 会 令 无 符号 操作 数 运 算 产 生 回 绕 ， 表 1-5 给 出 了 可 能 会 导致 回 绕 的 操作 符 。 


表 1-5 可 能 导致 回 绕 的 操作 符 


操作 符 是 否 回 绕 操作 符 是 否 回 绕 操作 符 操作 符 是 否 回 绕 
= a a 是 ee 是 < 下 
是 *= 是 否 
是 = 合 否 
人 %= 个 五 
?0 否 是 
Se 了 到 下 
-- 是 &= 个 从 
- 全 BE 徊 而 
A 是 局 全 否 


建议 2-7: 防止 有 符号 整数 溢出 


整数 溢出 是 一 种 常见 、 难 预测 且 严 重 的 软件 漏洞 ， 由 它 引发 的 程序 Bug 可 能 比 格式 化 字符 串 与 缓冲 区 溢出 等 缺陷 更 难于 发 现 。C99 标 准 中 规定 ， 当 两 个 操作 数 都 是 有 符号 整数 时 ， 就 有 可 能 发 生 整 数 溢 


出 ， 它 将 会 导致 “不 能 确定 的 行为 ”。 也 就 是 说 整数 溢出 是 一 种 未 定义 的 行为 ， 这 也 就 意味 着 编译 器 在 处 理 有 符号 整数 的 溢出 时 具有 很 多 的 选择 ， 遵 循 标准 的 编译 器 可 以 做 它们 想 做 的 任何 如 


略 该 溢出 或 终止 进程 。 大 多 数 编译 器 都 会 忽略 这 种 溢出 ， 这 可 能 会 导致 不 确定 的 值 或 错误 的 值 保存 在 整数 变量 中 。 


整数 溢出 有 时 候 是 很 难 发 现 的， 一 般 情况 下 在 整数 溢出 发 生 之 前 ， 你 都 无 法 知道 它 是 否 会 发 生 溢出 ,由 


使 你 的 代码 经 过 仔细 


查 ， 有 时 候 溢出 也 是 不 可 避免 的 。 因 此 ， 程 序 很 难 区 分 先前 计算 出 


的 结 


是 否 正 确 ， 而 且 如 果 计算 结果 将 作为 一 个 缓冲 区 的 大 小 、 数 组 的 下 标 、 循 环 计数 器 与 内 存 分 配 函 数 的 实 参 等 时 将 会 非常 危险 。 当 然 ， 因 为 无 法 直接 改写 内 存单 元 ， 所 以 大 多 数 整数 溢出 是 没有 办 法 利 


但 是 ， 有 时 候 整数 溢出 将 会 导致 其 他 类 型 的 缺陷 发 生 ， 比 如 很 容易 发 生 的 缓冲 区 溢出 等 。 代 码 清 自 


代码 清单 1-13 ”整数 溢出 示例 


#include <stdio.h> 
int main (void) 
{ 

int sl = 2147483647; 
i = 1073741824; 
= -1879048193; 
1， 


printf ("sd (Ox%x) +%d (Ox%x) =%d (Ox%x) \n", sl, sl, s4, s4, 


slts4, sl1+s4) ; 


Printf ("%d (Ox%x) -%d (Ox%x) =%d (0x%x) \n", s2, sS2， s3， s3， 


S2~83, .82-83) 3 


printf ("%d (Ox%x) *%d (Ox%x) =%d (Ox%x) \n", s2, s2, s5, s5, 


S2*s5, Ss2*s5) ; 
return 0; 


1-13 是 一 个 简单 的 整数 溢出 示例 。 


在 32 位 操作 系统 中 ， 类 型 int 的 取 值 范围 为 “-2147483647~2147483647”， 限 制 是 由 INT_MIN 与 INT_MAX 宏 指定 的 ， 如 下 面 的 代码 所 示 : 


#define INT MIN (-2147483647 - 1) 
#define INT MAX 2147483647 


而 在 代码 清单 1-13 中 ， 当 程序 执行 语句 “s1+s4、s2-s3 与 2*s5” 时 ,其 


E:\c\M>1-13 


结果 都 超过 类 型 int 的 取 值 范围 ， 


此 发 生 溢 出 行为 ， 运 行 结果 如 图 1-15 所 示 。 


2147483647CBx?f ffFEFE 2+1¢0Bx1 >=-21474836498¢0x88000000> 


10737?418240x400000002-—18790481930Bx8fffFffFE Y=-—-1342177279 0xbB80000l > 
18073741824<Gx408660G0060>x4<0x4> -G8x8> 


图 1-15 代码 清单 1-13 的 运行 结果 


当然 ， 面 对 这 些 简单 的 有 符号 整数 运算 溢出 ， 简 单 地 通过 对 操作 数 进 行 预测 的 方法 就 能 够 避免 发 生 有 符号 整数 运算 溢出 。 比 如 ， 代 码 清单 1-14 就 采用 了 补 码 的 表示 形式 来 对 操作 数 进 行 预测 。 


代码 清单 1-14 ”采用 补 码 的 表示 形式 来 对 操作 数 进行 预测 


#include <stdio.h> 
#include <stdlib.h> 
int main (void) 
{ 
int sl = 2147483647; 
int s2 = 1073741824; 
int s3 = -1879048193; 
int S4=1; 
if (( (sl*s4) ] (‘( (sl* (~ (sl1"*s4) 
& (1<< (sizeof (int) *CHAR BIT-1) ) ) ) +s4) ^s4) ) >=0) 


/* 处 理 溢出 条 件 */ 


else 
{ 
printf ("%d (Ox%x) +%d (Ox%x) =%d (Ox%x) \n", sl, sl 
slts4, sl+s4) ; 
} 
if ( ( (s2*s3) & ( ( (s2* (S2^53) 


& (1<< (sizeof (int) *CHAR BIT-1) ) ) ) -s3) ^s3) ) <0) 


/* 处 理 溢出 条 件 */ 


else 
{ 
printf ("%d (Ox%x) -%d (Ox%x) =%d (0x%x) \n", s2, s2, 
Ss2-s3, s2-s3) ; 
return 0; 


，S4，S4， 


3 


溢出 。 示 例如 代码 清单 1-15 所 示 。 


代码 清单 1-15 ”溢出 示例 


#include <stdio.h> 
int main (void) 
{ 
int sil= 1073741824; 
int si2=0; 
int si3= -1073741824; 
int si4=4; 
int si5=-1; 
printf ("sil = %d (Ori) mn" Bil, Bill); 


Printf ("sil + %d (Ox%x) = %d (0x%x) \n", si3, si3, si2, S 
Si2 = sil * Si4; 

printf ("sil * %d (Ox%x) = %d (Ox%x) \n", si4, si4, si2, 
si2 = sil - si5; 

Printf ("sil - %d (Ox%x) = %d (0x%x) \n", si5, si5, si2, 5s 
return 0; 


2 
Si2) : 


区 


如 上 面 的 代码 所 示 ， 这 种 方式 可 以 有 效 地 避免 发 生 简单 的 有 符号 整数 运算 溢出 ， 有 兴趣 的 朋友 可 以 自己 测试 。 其 实 ， 不 只 算术 运算 可 能 造成 溢出 ， 任 何 企 


改变 该 有 符号 整 型 变量 值 的 操作 都 可 


能 造 


上 三， 比如 完全 忽 


成 


代码 清单 1-15 的 运行 结果 如 图 1-16 所 示 。 


与 无 符号 整数 的 回 绕 相似 ， 并 不 是 每 种 运算 符号 都 会 令 有 符号 操作 数 运 算 产 生 溢出 ， 表 1-6 给 出 了 可 能 会 导致 溢出 的 操作 符 。 


FR Do ee 
1073741824 ‘Bx40800000> 
ds A = 日 《0xg> 


49x4> = 日 《0xBy》 
1*GBxf fffffFE> - 1973741825 《9x406606061》 


图 1-16 ”代码 清单 1-15 的 运行 结果 
表 1-6 ”可 能 导致 溢出 的 操作 符 


操作 符 是 否 溢出 操作 符 是 否 溢出 操作 符 是 否 溢 出 是 否 溢出 

是 -二 是 << 、 否 
是 二- 是 下 
* 是 - 是 

是 %= 是 否 
% 是 <<= 是 个 
二 二 是 >>= 个 个 
-- 是 &= 耕 否 
= 从 一 个 个 
+ 是 到 否 百 


与 前 面 所 讲 的 无 符号 整数 回 绕 一 样 ， 有 符号 整数 的 这 种 溢出 也 很 容易 导致 缓冲 区 溢出 ， 同 时 也 很 容易 让 攻击 者 可 执行 任意 代码 ， 演 示 示例 如 代码 清单 1-16 所 示 。 


代码 清单 1-16 ”溢出 导致 的 结果 示例 


#include <stdio.h> 

#include <stdlib.h> 

int copychar (char *cl, int lenl, char *c2, int len2) ; 

int main (int argc, char *argv[]) 

{ 
copychar (argv[1], atoi (argv[2]) , argv[3], atoi (argv[4]) ) ; 
return 0; 


int copychar (char *cl1l, int lenl, char *c2, int len2) 


char buf[100]; 

if ( (lenl + len2) > 100) 

{ 
printf ("超出 buf 容 纳 范 围 (100) ! \n") ; 
return -1; 

} 

memcpy (buf, cl, lenl) ; 

memcpy (buftlenl, c2, len2) ; 

printf ("复制 $d+%d=%qd 个 字 节 到 buf! \n",， len1,， len2, lenl+len2) ; 

printf ("buf=%s\n", buf) ; 

return 0; 


在 代码 清单 1-16 中 ,程序 需要 将 c1 与 c2 的 内 容 复制 到 buf 中 ， 并 分 别 由 len1 与 len2 来 指定 复制 的 字 节 数 。 这 里 需要 特别 注意 的 语句 是 “if ( (len1+len2) >100) ”， 我 们 利用 该 语句 进行 了 相对 严格 
的 大 小 检查 : 如 果 Ilen1+len2 的 值 大 于 buf 数 组 的 大 小 〈100) ， 则 不 进行 复制 。 


运行 代码 清单 1-16， 当 我 们 执行 命令 “1-16 Hello! 6 C 2” 时， 程序 运行 正常 ， 并 成 功 地 将 字符 串 复 制 到 buf 中 ， 运 行 结果 如 图 1-17 所 示 。 


Yisual Studio Command Pr 


E:\c\M>1-16 Hellot 6 CGC2 
复制 6+2=8 个 字 节 到 |buf* 


buf =Hello*C 


图 1-17 代码 清单 1-16 (执行 “1-16 Hello! 6C2”) 的 运行 结果 


当 我 们 执行 命令 “1-16 Hello! 50 C 51” 时 ,程序 同样 运行 正常 ， 运 行 结果 如 图 1-18 所 示 。 


Visual Studio Comnmand Proapt (2010) 


E:\c\>1-16 Hello*t 58 GC 51 


起 出 buf 容纳 范 有 1083+ 


图 1-18 代码 清单 1-16 (执行 “1-16 Hello! 50 C 51”) 的 运行 结果 


可 当 我 们 执行 命令 “1-16 Hello! 2147483647 C 2” 时 ， 程 序 却 意外 地 绕 过 大 小 检查 语句 “if ( (len1+len2) >100) ”来 执行 相关 的 操作 。 是 什么 原 


其 实 很 简 
0x00000002) ， 当 执行 语句 “len1+len2 ( 即 0x7fffffff+0x00000002) ”时 会 发 生 溢出 
伟 查 语句 “if ( (len1+len2) >100) ”来 执行 余下 的 操作 。 也 正 因为 如 此 ， 在 执行 语 
0xC0000005: Access violation reading location 0x65726f66” 的 发 生 。 


bH， 所 得 结果 为 -2147483647 ( 即 十 六 进 制 为 0x80000001) 。 因 为 -2147483647 远 远 小 于 100 


建议 3: 尽量 少 使 用 浮 点 类 型 


C 语 言 标准 规定 的 浮 点 数据 类 型 有 float、double、long double 三 种 ， 如 表 1-7 所 示 。 


表 1-7 ANSI 标 准 定义 的 浮 点 数据 类 型 


， 就 是 由 于 整数 溢出 而 导致 的 。 从 执行 的 命令 “1-16 Hello! 2147483647 C 2” 可 以 得 出 ，len1 的 值 为 2147483647 ( 即 十 六 进 制 为 0x7fffffff) ，len2 值 为 2 ( 即 十 六 


因 导致 这 种 情况 发 生 的 呢 ? 


< 进 制 为 
， 从 而 使 程序 绕 过 大 小 


句 “memcpy (buf，c1，len1) ”时 便 导致 异常 “Unhandled exception at 0x65726f66 in 1-16.exe: 


类 型 最 小 取 值 范围 
float 32 6 位 精度 ，1E-37 ~ 1E+37 
double 10 位 精度 ，1E-37 ~ 1E+37 


10 位 精度 ，1E-37 ~ 1E+37 


long double 


和 整 型 一 样 ， 浮 点 数据 类 型 既 没 有 规定 每 种 类 型 占 多 少 字 节 ， 也 没有 规定 采 
Unit，FPU) ， 称 为 硬 浮 点 (Hard-float) 实现 ;而 有 的 处 理 器 没有 浮 点 运算 
部 分 平台 的 浮 点 数 实现 都 遵循 IEEE 754 标 准 (IEEE Standard for Binary Floating-Point Arithmetic, ANSI/IEEE Std 754-1985) 。 


这 里 需要 特别 说 明 的 是 ，ANSI C 并 未 规定 long double 类 型 的 准确 精度 。 正 
多 。 在 x86 平 台 上 ， 大 多 数 编译 器 实现 的 long double 类 型 是 80 位 ， 因 为 x86 的 浮 点 运算 单元 具 
行 “sizeof (long double) ”所 得 的 结果 则 为 12 ( 即 96 位 ) 。 但 一 般 来 说 ，long double 类 型 的 精度 要 高 于 double 类 型 ， 至 少 它们 也 应 该 相等 。 


建议 3-1: 了 解 IEEE 754 浮 点 数 


1. 浮 点 数 简介 


在 计算 机 系统 的 发 


展 过 程 中 ， 业 界 曾经 提出 过 许多 种 实数 的 表达 方法 ， 比 较 典 型 的 有 相对 于 浮 点 数 (Floating Point Number) 的 定点 数 (Fixed Point Number) 。 在 定点 数 表达 法 中 ， 其 


哪 种 表示 形式 。 因 此 ， 浮 点 数据 类 型 的 实现 在 各 种 平台 上 差异 很 大 ， 有 的 处 理 器 有 浮 点 运算 单元 (Floating Point 
元 ， 只 能 做 整数 运算 ， 也 就 是 需要 用 整数 运算 来 模拟 浮 点 运算 ， 这 种 实现 方式 称 为 软 浮 点 (Soft-float) 实现 。 迄 今 为 止 大 


因为 如 此 ， 对 于 不 同 的 平台 ，long double 类 型 可 能 有 不 同 的 实现 ， 有 的 是 8 字 节 ， 有 的 是 10 字 节 ， 还 有 的 是 12 字 节 或 更 
有 80 位 精度 。 如 在 VC+ +2010 中 运行 “sizeof (long double) ”所 得 的 结果 为 8， 而 在 GCC 中 运 


其 小 数 点 固定 


地 位 于 实数 所 有 数字 中 间 的 某 个 位 置 。 例 如 ， 货 币 的 表达 就 可 以 采 
值 来 表达 相应 的 数值 。 但 我 们 不 难 发 现 ， 定 点 数 表达 法 的 缺点 就 在 于 其 形式 过 于 僵硬 ， 固 
绝 大 多 数 现代 的 计算 机 系统 都 采纳 了 所 谓 的 浮 点 数 表 达 法 。 


浮 点 数 表达 法 采用 了 科学 计数 法 来 表达 实数 ， 即 
6 6666x102 (其 h，6.6666 为 有 类 洒 ，10 为 直 数 2 庆 抽 上 。 浮 夏利 用 癌 闪 人 了 浮动 和 谎 果 ， 从 而 可 以 叶 汪 由 大 更 太古 的 Bi 


当然 ， 对 实数 的 浮 点 表示 仅 作 如 上 的 规定 是 不 够 的 ， 
表达 的 多 样 性 ， 因 此 有 必要 对 其 加 以 规范 化 以 达到 统一 表达 的 目标 。 规 范 的 浮 点 数 表达 方式 具有 如 下 形式 : 


这 种 表达 方式 ， 如 55.00 或 者 00.55 可 以 用 于 表达 具有 4 位 精度 ， 小 数 点 后 有 两 位 的 货币 值 。 由 于 小 数 点 位 置 固 定 ， 所 以 可 以 直接 用 4 位 数 
定 的 小 数 点 位 置 决定 了 固定 位 数 的 整数 部 分 和 小 数 部 分 ， 不 利于 同时 表达 特别 大 的 数 或 者 特别 小 的 数 。 因 此 ， 最 终 


一 个 有 效 数字 [1]。 一 个 基数 (Base) 、 一 个 指数 (Exponent) 以 及 一 个 表示 正 负 的 符号 来 表达 实数 。 比 如 ，666.66 用 十 进 制 科 学 计数 法 可 以 表达 为 


因为 同一 实数 的 浮 点 表示 还 不 是 唯一 的 。 例 如 ， 上 面 例子 中 的 666.66 可 以 表达 为 0.66666x103、6.6666x10? 或 者 66.666x101 三 种 方式 。 因 为 这 种 


+ddd…dxB* (0 三 di<B) 


其 中 ，d.dd.…d 为 有 效 数字 ，B 为 基数 ，e 为 指数 。 


Pp 来 表示 ， 即 可 称 为 p 位 有 效 数字 精度 。 每 个 数字 d 介 于 0 和 基数 B 之 间 ， 包 括 0。 更 精确 地 说 ，+do.d1d2.…dp-1xB 伟 示 以 下 数 : 


有 效 数 字 中 数字 的 个 数 称 为 精度 ， 我 们 可 以 


+(dotdiB™ ++dp BBS (0<d<B) 


其 中 ， 对 十 进 制 的 浮 点 数 ， 即 基数 B 等 于 10 的 浮 点 数 而 言 ， 上 面 的 表达 式 非常 容易 理解 。 如 12.34， 我 们 可 以 根据 上 画 


1.234x101。 


的 表达 式 表达 为 : 1x101+2x100+3x10-1+4x10-2， 其 规范 浮 点 数 表达 为 


六 


但 对 二 进 制 来 说 ， 上 面 的 表达 式 同 样 可 以 简单 地 表达 。 唯 一 不 同 之 处 在 于 : 二 进 制 的 B 等 于 2， 而 每 个 数字 d 只 能 在 0 和 1 之 间 取 值 。 如 二 进 制 数 1001.101， 我 们 可 以 根据 上 面 的 表达 式 表达 为 : 
1x23+0x22+0x21+1x20+1x2-1+0x2-2+1x2-3， 其 规范 浮 点 数 表达 为 1.001101x23。 


现在 ,我 们 就 可 以 这 样 简单 地 把 二 进 制 转换 为 十 进 制 ， 如 二 进 制 数 1001.101 转 换 成 十 进 制 为 : 


1001.101 
=1x2+0x20x2+1x24+1x2-H0x2 +1 x 27 


3 


=0 一 


8 


=9.023 


由 上 面 的 等 式 , 我们 可 以 得 出 : 


el 


基本 


] ] 
8 


向 左 移动 二 进 制 小 数 点 一 位 相当 于 这 个 数 除 以 2， 而 向 右 移动 二 进 制 小 数 点 一 位 相当 于 这 个 数 乘 以 2。 如 101.11=3/4， 而 10.111= 7/8。 除 此 之 外 ， 我 们 还 可 以 得 到 这 样 


项 和 


lL 一 个 十 进 制 小 数 要 能 


用 浮 点 数 精确 地 表示 ， 最 后 一 位 必须 是 5 (当然 这 是 必要 条 件 ， 并 非 充分 条 件 ) 。 规 律 推演 如 下 面 的 示例 所 示 : 


DT 一 
0.01=2<=0.25 
0.001=2~=0.125 
0.0001=2-=0.0625 
0.00001=2™=0.03125 
0.000001=2- 二 0.01$625 
0.0000001=2- =0.0078125 
0.00000001=2™=0.00390625 


om™ Wisual Studio Commnand Promnpt 2010} 


34.5-34.8=B.5H0000d 


图 1-19 代码 清单 1-17 的 运行 结果 


之 所 以 “34.6-34.0=0.599998”， 产 生 这 个 误差 的 原因 是 34.6 无 法 精确 地 表达 为 相应 的 浮 点 数 ， 而 只 能 保存 为 经 过 舍 入 的 近似 值 。 而 这 个 近似 值 与 34.0 之 间 的 运算 自然 无 法 产生 精确 的 结果 。 


上 面 阐述 了 二 进 制 数 转换 十 进 制 数 ， 如 果 你 要 将 十 进 制 数 转 换 成 二 进 制 数 ， 则 需要 把 整数 部 分 和 小 数 部 分 分 别 转换 。 其 中 ， 整 数 部 分 除 以 2， 取 余数 ;小 数 部 分 乘 以 2?， 取 整数 位 。 如 将 13.125 转 换 成 二 
进 制 数 如 下 : 


首先 转换 整数 部 分 (13) ， 除 以 2， 取 余数 ， 所 得 结果 为 1101。 


其 次 转换 小 数 部 分 (0.125) ， 乘 以 2， 取 整数 位 。 转 换 过 程 如 下 : 
0.125x2=0.25 取 整 数位 0 
0.25x2=0.5 取 整 数位 0 


0.5x2=1 取 整 数位 1 


小 数 部 分 所 得 结果 为 001， 即 13.125=1101.001， 用 规范 浮 点 数 表达 为 1.101001x23。 


除 此 之 外 ， 与 浮 点 表示 法 相关 联 的 其 他 两 个 参数 是 “最 大 允许 指数 ”和 “最 小 允许 指数 ”， 即 emax 和 和 emin。 由 于 存在 BP 个 可 能 的 有 效 数 字 ， 以 及 emax-emin+ 1 个 可 能 的 指数 ， 因 此 浮 点 数 可 以 按 


[logz (emaxremin+1) ]+[log2(BP) ]+1 位 编码 ， 其 中 最 后 的 +1 用 于 符号 位 。 


2. 浮 点 数 表示 法 


直到 20 世 纪 80 年 代 ( 即 在 没有 制定 IEEE 754 标 准 之 前 ) ， 业 界 还 没有 一 个 统一 的 浮 点 数 标准 。 相 反 ， 很 多 计算 机 制造 商 根 据 自己 的 需要 来 设计 自己 的 浮 点 数 表示 规则 ， 以 及 浮 点 数 的 执行 运算 细节 。 另 
外 ， 他 们 常常 并 不 太 关注 运算 的 精确 性 ， 而 把 实现 的 速度 和 简易 性 看 得 比 数字 的 精确 性 更 重要 ， 而 这 就 给 代码 的 可 移植 性 造成 了 重大 的 障碍 。 


直到 1976 年 ，Intel 公 司 打算 为 其 8086 微 处 理 器 引进 一 种 浮 点 数 协 处 理 器 时 ， 意 识 到 作为 芯片 设计 者 的 电子 工程 师 和 固体 物理 学 家 也 许 并 不 能 通过 数值 分 析 来 选择 最 合理 的 浮 点 数 二 进 制 格式 。 于 是 ， 他 
们 邀请 加 州 大 学 伯克利 分 校 的 William Kahan 教 授 (当时 最 优秀 的 数值 分 析 家 ) 来 为 8087 浮 点 处 理 器 (FPU) 设计 浮 点 数 格式 。 而 这 时 ，William Kahan 教 授 又 找 来 两 个 专家 协助 他 ， 于 是 就 有 了 KCS 组 合 
(Kahn、Coonan 和 Stone) ， 并 共同 完成 了 Intel 公 司 的 浮 点 数 格式 设计 。 


由 于 Intel 公 司 的 KCS 浮 点 数 格式 完成 得 如 此 出 色 ， 以 致 lIEEE (Institute of Electrical and Electronics Engineers， 电 子 电 气 工程 师 协会 ) 决定 采用 一 个 非常 接近 KCS 的 方案 作为 IEEE 的 标准 浮 点 格式 。 
于 是 ，IEEE 于 1985 年 制订 了 二 进 制 浮 点 运算 标准 IEEE 754 (IEEE Standard for Binary Floating-Point Arithmetic，ANSI/IEEE Std 754-1985) ， 该 标准 限定 指数 的 底 为 2， 并 于 同年 被 美国 引用 为 ANSI 标 
准 。 目 前 ， 几 乎 所 有 的 计算 机 都 支持 IEEE 754 标 准 ， 它 大 大 地 改善 了 科学 应 用 程序 的 可 移植 性 。 


图 


考虑 到 IBM System/370 的 影响 ，IEEE 于 1987 年 推出 了 与 底数 无 关 的 二 进 制 浮 点 运算 标准 IEEE 854， 并 于 同年 被 美国 引用 为 ANSI 标 准 。1989 年 ， 国 际 标准 组 织 |EC 批 准 IEEE 754/854 为 国际 标准 IEC 
559: 1989。 后 来 经 修订 后 ， 标 准 号 改 为 IEC 60559。 现 在 ， 几 乎 所 有 的 浮 点 处 理 器 完全 或 基本 支持 IEC 60559。 同 时 ，C99 的 浮 点 运算 也 支持 IEC 60559。 


IEEE 浮 点 数 标准 是 从 逻辑 上 用 三 元 组 (S，E，M} 来 表示 一 个 数 V 的 ， 即 V= (-1) sxMx2E， 如 图 1-20 所 示 。 


S (符号 位 》 


图 1-20 ”IEEE 浮 点 数 表 示 形 式 


其 中 : 
“ 符号 位 s (Sign) 决定 数 是 正 数 (s 二 0) 还 是 负数 (s 二 1) ， 而 对 于 数值 0 的 符号 位 解释 则 作为 特殊 情况 处 理 。 
: 有 效 数字 位 M (Significand) 是 二 进 制 小 数 ， 它 的 取 值 范围 为 1~2-e， 或 者 为 0~1-s。 它 也 被 称 为 尾数 位 (Mantissa) 、 系 数位 (Coefficient) ， 甚 至 还 被 称 作 “小 数 ”。 


“ 指数 位 已 (Exponent) 是 2 的 需 (可 能 是 负数 ) ， 它 的 作用 是 对 浮 点 数 加 权 。 


浮 点 数 格式 是 一 种 数据 结构 ， 它 规定 了 构成 浮 点 数 的 各 个 字段 、 这 些 字段 的 布局 及 算术 解释 。IEEE 754 浮 点 数 的 数据 位 被 划分 为 三 个 段 ， 从 而 对 以 上 这 些 值 进行 编码 。 其 中 : 
. 一 个 单独 的 符号 位 s 直 接 编码 符号 s。 

.下位 的 指数 段 exp=el.1…ele0， 编 码 指数 E。 

 n 位 的 小 数 段 frac=fh1…fl 和 H， 编 码 有 效 数字 M， 但 是 被 编码 的 值 也 依赖 于 指数 域 的 值 是 否 等 于 0。 

根据 exp 的 值 ， 被 编码 的 值 可 以 分 为 如 下 几 种 不 同 的 情况 。 


(1) 格式 化 值 


当 指 数 段 exp 的 位 模式 既 不 全 为 0 ( 即 数值 0) ， 也 不 全 为 1( 即 单 精度 数值 为 255， 以 单 精度 数 为 例 ，8 位 的 指数 为 可 以 表达 0~255 的 255 个 指数 值 ， 双 精度 数值 为 2047) 的 时 候 ， 就 属于 这 类 情况 。 如 医 
1-21 所 示 。 


图 1-21 格式 化 值 ( 单 精度 ) 


我 们 知道 ， 指 数 可 以 为 正 数 ， 也 可 以 为 负数 。 为 了 处 理 负 指数 的 情况 ， 实 际 的 指数 值 按 要 求 需要 加 上 一 个 偏 置 (Bias) 值 作为 保存 在 指数 段 中 的 值 。 因 此 ， 这 种 情况 下 的 指数 段 被 解释 为 以 偏 置 形式 表 
示 的 有 符号 整数 。 即 指数 的 值 为 : 


E=e-Bias 


其 中 ，e 是 无 符号 数 ， 其 位 表示 为 ek_1.…e1e0， 而 Bias 是 一 个 等 于 2K-1-1 (和 


对 小 数 段 frac， 可 解释 为 描述 小 数值 f， 


法 ， 因 为 我 们 可 以 把 M 看 成 一 个 二 进 制 表达 式 为 1.fn-1fn-2.…fo0 的 数字 。 既然 我 们 总 是 能 够 调整 指数 E， 使 得 有 效 数 字 M 的 范 
位 的 技巧 。 同 时 ， 由 于 第 一 位 总 是 等 于 1， 因 此 我 们 就 不 需要 显 式 地 表示 它 。 拿 和 
二 进 制 的 1001.101 ( 即 十 进 制 的 9.625) 可 以 表达 为 1.001101x23， 所 以 实际 保存 在 有 效 数字 位 中 的 值 为 : 


00110100000000000000000 


其 中 0<f<1， 


即 去 掉 小 数 点 左 侧 的 1， 并 用 0 在 右 侧 补 齐 。 


根据 上 面 所 阐述 的 规则 ， 下 面 以 实数 -9.625 为 例 ， 来 看 看 如 何 将 其 表达 为 单 精度 的 浮 点 数 格式 。 


首先 ,需要 将 -9.625 用 二 进 制 浮 点 数 表达 出 来 ， 然 后 变换 为 相应 的 浮 点 数 格式 。 即 -9.625 的 二 进 所 


其 次 ， 因 为 -9.625 是 负数 ， 所 以 符号 段 为 1。 


其 二 进 制 表示 为 0.fn-1.…f1fo， 也 就 是 二 进 制 小 数 点 在 最 高 有 效 位 | 


围 为 1<M<2 (假设 没有 溢出 ) 


a 精度 是 127， 双 精度 是 1023) 的 偏 置 值 。 由 此 产生 指数 的 取 值 范围 是 : 单 精度 为 -126~+127， 双 精度 为 -1022~+1023。 


的 左边 。 有 效 数字 定义 为 M=1+f。 有 了 时候 ， 这 种 方式 也 叫 作 隐 合 的 以 1 开头 的 表示 
， 那 么 这 种 表示 方法 是 一 种 轻松 获得 一 个 额外 精度 


精度 数 为 例 ， 按 照 上 面 所 介绍 的 知识 ， 实 


体 转换 步骤 如 下 : 


示 上 可 以 用 23 位 长 的 有 效 数字 来 表达 24 位 的 有 效 数 字 。 比 如 ， 对 单 精度 数 而 言 ， 


为 1001.101， 上 


规范 的 浮 点 数 表达 应 为 1.001101x23。 


而 这 里 的 指数 为 3， 所 以 指数 段 为 3+ 127=130， 即 二 进 制 的 10000010。 有 效 数字 省 略 掉 小 数 点 左 侧 的 1 之 后 为 001101， 然 后 在 右 侧 用 零 补 齐 。 因 此 所 得 


最 后 ， 我 们 还 可 以 将 浮 点 数 形式 表示 为 十 六 进 制 的 数据 ， 如 下 所 示 : 


| 
| 
| 
| 
间 
] 


省 


即 最 终 的 十 六 进 制 结果 为 0xC11A0000。 


(2) 特殊 数值 


1EEE 标 准 指定 了 以 下 特殊 值 : +0、 反 向 规格 化 的 数 、+co 和 NaN (如 表 1-8 所 示 ) 。 


| 

| 

| 

| 
和 
A 


表 1-8 IEEE 754 


并 一 一 一 一 


这 些 特殊 值 都 是 使 


全 二 一 一 一 = 


emax+1 或 emin-1 的 指数 进行 编码 的 。 


己 芷 一 一 一 一 
全 才 一 一 一 二 


指数 尾数 部 分 表示 
e=emin—1 = 0 土 0 
e=emin—1 fxs0 Of SR 
ee — 和 
cemsaeFit f=0 上 0% 
e=emaxt+ 1 fs0 NaN 


1) NaN。 


当 指 数 段 exp 全 为 1 时 ， 小 数 段 为 非 零 时 ， 结 果 值 就 被 称 为 “NaN” 


(Not any Number) ， 如 图 1-22 所 示 。 


图 1-22 NaN ( 单 精 度 ) 


一 般 情况 下 ， 我 们 将 0/0 或 - 1 视 为 导致 计算 终止 的 不 可 恢复 错误 。 但 是 ， 一 些 示例 表明 在 这 样 的 情况 下 继续 进行 计算 是 有 意义 的 。 这 时 候 就 可 以 通过 引入 特殊 值 NaN ， 并 指定 诸如 0/0 或 v -1 之 类 的 
表达 式 计算 来 生成 NaN 而 不 是 停止 计算 ， 从 而 避免 此 问题 。 表 1-9 中 列 出 了 一 些 可 以 导致 NaN 的 情况 。 


表 1-9 ”产生 NaN 的 运算 


操作 


产生 NaN 的 表达 式 


+ 2 +(- %) 
过 Ox 

/ 0/0.%/% 
REM 


XREM 0, % REMy 


2) 无 穷 。 


MX ( 当 笃 <<0 时 》 


当 指 数 段 exp 全 为 1， 小 数 段 全 为 0 时 ， 得 到 的 值 表示 无 穷 。 当 s=0 时 是 +co， 或 者 当 s=1 时 是 -<"。 如 图 


1-23 所 示 。 


无 穷 用 于 表达 计算 中 产生 的 上 溢 问 题 。 比 如 两 个 极 大 的 数 相 乘 时 ， 尽 管 两 个 操作 数 本 身 可 以 保存 为 浮 点 数 ， 但 其 结果 可 能 


图 1-23 无 穷 大 ( 单 精 度 ) 


舍 入 为 可 以 保存 的 最 大 浮 点 数 ( 


3) 非 格 式 化 值 。 


因为 这 个 数 可 能 


与 实际 的 结果 相差 太 远 而 毫 无 意义 ) ， 


当 指 数 段 exp 全 为 0 时 ， 所 表示 的 数 就 是 非 规格 化 形式 ， 如 图 1-24 所 示 。 


大 到 无 法 保存 为 浮 点 数 ， 
而 应 将 其 舍 入 为 无 穷 。 对 于 结果 为 负数 的 情况 也 是 如 此 ， 


行 舍 入 操作 。 根 据 IEEE 标 准 ， 此 时 不 能 将 结果 
只 不 过 此 时 会 舍 入 为 负 无 穷 ， 也 就 是 说 符号 域 为 1 的 无 穷 。 


图 1-24 非 格式 化 值 〈( 单 精度 ) 


在 这 种 情况 下 ， 指 数值 E=1-Bias， 而 有 效 数字 的 值 M =f， 也 就 是 说 它 是 小 数 段 的 值 ， 不 包含 隐 含 的 开头 的 1。 


非 规格 化 值 有 两 个 用 途 : 


第 一 ， 它 提供 了 一 种 表示 数值 0 的 方法 。 因 为 规格 化 数 必须 得 使 有 效 数 字 M 在 范围 15M <2 之 中 ， 即 M>1， 


0， 而 小 数 段 也 全 为 0) ， 这 就 得 


第 二 ， 它 表示 那些 非常 接近 于 0.0 的 数 。 它 们 提供 了 一 种 


到 M=f=0。 令 人 奇怪 的 是 ， 当 符号 位 为 1， 而 其 他 段 全 为 0 时 ， 就 会 


下 面 的 单 精 度 浮 点 数 就 是 一 个 非 格式 化 的 示例 。 


00000000 


属性 ， 称 为 逐渐 下 溢出 。 其 中 ， 可 能 的 数值 分 布 均匀 地 接近 于 0.0。 


因此 它 就 不 能 表示 0。 实 际 上 ，+ 0.0 的 浮 点 表示 的 位 模式 为 全 0 ( 即 符号 位 是 0， 指 数 段 全 为 


得 到 值 -0.0。 根 据 IEEE 的 浮 点 格式 来 看 ， 值 +0.0 和 -0.0 在 某 些 方面 是 不 同 的 。 


00000000000000000000001 


它 被 转换 成 十 进 制 表示 大 约 等 于 1.4x 10-45， 实 际 上 它 就 是 单 精 


度 浮 点 数 所 能 表达 的 最 小 非 格式 化 数 。 以 此 类 推 ， 格 式 化 值 和 非 格式 化 值 所 能 表达 的 非 负数 值 范 


表 1-10 格式 化 值 和 非 格式 化 值 所 能 表达 的 非 负数 值 范围 表 


如 表 1-10 所 示 。 


最 小 非 格式 化 数 


十 进 制 


1.4x10 2 


最 大 非 格式 化 数 (人 三 对 让 2 E21 (l= 2 Qo LO 
最 小 格式 化 数 1 22 作 让 人文 汪 0 (1 XZ 2 
最 大 格式 化 数 (2-s) x 22 3.4x 103 (2=) X20 证 


3 .标准 浮 点 格式 


IEEE 754 标 准 准 确 地 定义 了 重 


“ 单 精度 浮 点 格式 (32 位 ) 。 


站 精度 和 双 精 度 浮 点 格式 ， 并 为 这 两 种 基本 格式 分 别 定义 了 扩 


展 格 式 ， 如 下 所 示 : 


“ 双 精 度 浮 点 格式 《64 位 ) 。 


“ 扩展 单 精 度 浮 点 格式 ( 宇 43 位 ， 不 常用 ) 。 


“ 扩展 双 精 度 浮 点 格式 ( 宇 79 位 ， 一 般 情况 下 ，Intel x86 结 构 的 计算 机 采用 的 是 80 位 ， 而 SPARC 结 构 的 计算 机 采用 的 是 128 位 ) 。 


其 中 ， 


只 有 32 位 单 精 度 浮 点 数 是 本 标准 强烈 要 求 支持 的 ， 其 他 都 是 可 选 部 分 。 下 面 就 来 对 单 精 度 浮 点 与 双 精 度 浮 点 的 存储 格式 做 一 些 简要 的 阐述 。 


(1) 单 精度 浮 点 格式 


单 精度 浮 点 格式 共 32 位 ， 其 中 ，s、exp 和 frac 段 分 别 为 1 位 、k=8 位 和 n=23 位 ， 如 图 1-25 所 示 。 


32 位 (float ) 


frac (n=23) [ 22:0 | 


sl | 30 23 22 l 0 
I 
| | | 
符号 位 S (sign) ”指数 位 E (exponent) 有 效 数字 人 iM (significand) 
1-25 单 精度 浮 点 数 的 存储 格式 
其 中 ，32 位 中 的 第 0 位 存放 小 数 段 frac 的 最 低 有 效 位 LSB (least significant bit) ， 第 22 位 存放 小 数 段 frac 的 最 高 有 效 位 MSB (most significant bit) ; 第 23 位 存放 指数 段 exp 的 最 低 有 效 位 LSB， 第 30 


位 存放 指数 段 exp 的 最 高 有 效 位 MSB; 最 高 位 ， 即 第 31 位 存放 符号 s。 例 如 ， 单 精度 数 8.25 的 存储 方式 如 图 1-26 所 示 。 


(2) 双 精 度 浮 点 格式 


双 精 度 浮 点 格式 共 64 位 ， 其 中 ，s、exp 和 frac 段 分 别 为 1 位 、k=11 位 和 n=52 位 ， 如 图 1-27 所 示 。 


符号 位 


32 位 (float ) 


S exp (k=8) [30:23J | frac (n=23) [22:0j 

30 23 22 4 0 
| 
S(sign) ”指数 位 E (exponent) 有 效 数 字 位 M (significand) 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


10000010 00010000000000000000000 
127+3=30 0001 
0 | 


图 1-26 ”8.25 的 存储 方式 ( 单 精度 ) 


64 位 (double) 


S exp (k=11) [ 62:52 | frac (n=52) L51:32.]. [31:0d 


62 ‘ 52 0 
| 
| 


(六 
jw 
一 一 一 一 和 | 


63 

| 

| | 
:位 S(sign) 指数 位 E(exponent) 有 效 数 宁 位 M (significand) 


1-27 双 精 度 浮 点 数 的 存储 格式 


符号 位 


其 中 ，frac[31: 0] 存 放 小 数 段 的 低 32 位 〈 即 第 0 位 存放 整个 小 数 段 的 最 低 有 效 位 LSB， 第 31 位 存放 小 数 段 低 32 位 的 最 高 有 效 位 MSB) ; frac[51: 32] 存 放 小 数 段 的 高 20 位 〈 即 第 32 位 存放 高 20 位 的 最 低 
有 效 位 LSB， 第 51 位 存放 整个 小 数 段 的 最 高 有 效 位 MSB) ; 第 52 位 存放 指数 段 exp 的 最 低 有 效 位 LSB， 第 62 位 存放 指数 段 exp 的 最 高 有 效 位 MSB; 最 高 位 ， 即 第 63 位 存放 符号 s。 


在 Intel x86 结 构 的 计算 机 中 ， 数 据 存放 采用 的 是 小 端 法 (Little Endian) ， 故 较 低 地 址 的 32 位 的 字 中 存放 小 数 段 的 frac[31: 0] 位 。 而 在 SPARC 结 构 的 计算 机 中 ， 因 其 数据 存放 采用 的 是 大 端 法 (Big 
Endian) ， 故 较 高 地 址 的 32 位 字 中 存放 小 数 段 的 frac[31: 0] 位 。 


前 面 主要 讨论 了 IEEE 754 的 单 精度 与 双 精 度 浮 点 格式 ， 表 1-11 对 浮 点 数 的 相关 参数 进行 了 总 结 ， 有 兴趣 的 读者 可 以 根据 此 表 对 其 他 浮 点 格式 进行 深入 解读 。 


表 1-11 浮 点 格式 参数 总 结 


浮 点 格式 
扩展 双 精 度 (Intel x86 ) 扩展 双 精 度 (SPARC ) 
小 数 段 frac (n) 
前 导 有 效 位 隐 含 | 隐 含 | 显示 | 隐 仿 
( 续 ) 
a 浮 点 格式 
单 精度 双 精 度 (Intel x86 ) 扩展 双 精 度 (SPARC ) 
有 效 数 字 M 113 
指数 段 exp (k) 15 
偏 置 值 Bias +16383 
符号 位 s 1 
存储 格式 宽 尼 128 


4. 舍 入 误差 


舍 入 误差 是 指 运 算得 到 的 近似 值 和 精确 值 之 间 的 差异 。 大 家 知道 ， 由 于 计算 机 的 字 长 有 限 ， 因 此 在 进行 数值 计算 的 过 程 中 ， 对 计算 得 到 的 中 间 结 果 数 据 要 使 用 相关 的 舍 入 规则 来 取 近 似 值 ， 而 这 导致 计 
算 结果 产生 误差 。 


在 浮 点 数 的 舍 入 问题 上 ，IEEE 浮 点 格式 定义 了 4 种 不 同 的 舍 入 方式 ， 如 表 1-12 所 示 。 其 中 ， 默 认 的 舍 入 方法 是 向 偶数 舍 入 ， 而 其 他 三 种 可 用 于 计算 上 界 和 下 界 。 


表 1-12 ”四 种 合 入 方式 
也 称 为 向 最 接近 的 值 伟人 ， 会 将 结果 舍 人 为 最 接近 且 可 以 表示 的 值 
会 将 结果 朝 0 的 方向 舍 人 
癌 + 方向 舍 人 ， 会 将 结果 朝 正 无 穷 大 的 方向 侈 人 
问 - 2 方向 舍 人 ， 会 将 结果 朝 负 无 穷 大 的 方向 伟人 


名 称 
回 偶数 舍 人 
向 0 伟人 
问 上 舍 人 
向 下 售 


表 1-13 是 4 种 舍 入 方式 的 应 用 举例 。 这 里 需要 特别 说 明 的 是 ， 向 偶数 舍 入 (向 最 接近 的 值 舍 入 ) 方式 会 试图 找到 一 个 最 接近 的 匹配 值 。 因 此 ， 它 将 1.4 舍 入 成 1， 将 1.6 舍 入 成 2， 而 将 1.5 和 2.5 都 舍 入 成 


表 1-13 4 种 使 入 方式 的 取 值 示例 演示 


值 
名 称 : 2 


一 
> 
i 
nn 
iD 
nn 
| 
一 
n 


向 偶数 合 入 2 2 2 -2 
向 0 舍 入 1 1 2 | 
和 辣 上 舍 入 2 2 3 -1 


向 下 舍 入 


js 
PN 
iD 
| 
hi 


或 许 看 了 上 面 的 内 容 你 会 问 : 为 什么 要 采用 向 偶数 舍 入 这 样 的 舍 入 策略 ， 而 不 直接 使 用 我 们 已 经 习惯 的 “四 舍 五 入 ” 呢 ? 


间 
溃 


原因 我 们 可 以 这 样 来 理解 : 在 进行 舍 入 的 时 候 ， 最 后 一 位 数字 从 1 到 9， 舍 去 的 有 1、2、3、4; 它 正好 可 以 和 进位 的 9、8、7、6 相 对 应 ， 而 5 却 被 单独 留 下 。 如 果 我 们 采用 四 舍 五 入 每 次 都 将 5 进位 的 
话 ， 在 进行 一 些 大量 数 据 的 统计 时 ， 就 会 累积 比较 大 的 偏差 。 而 如 果 采 用 向 偶数 舍 入 的 策略 ， 在 大 多 数 情况 下 ，5 舍 去 还 是 进位 概率 是 差不多 的 ， 统 计时 产生 的 偏差 也 就 相应 要 小 一 些 。 


可 


样 ， 针 对 浮 点 数据 ， 向 偶数 舍 入 方式 只 需要 简单 地 考虑 最 低 有 效 数字 是 奇数 还 是 偶数 即 可 。 例 如 ， 假 设 我 们 想 将 十 进 制 数 合 入 到 最 接近 的 百 分 位 。 不 管用 哪 种 舍 入 方式 ， 我 们 都 将 把 1.2349999 舍 入 
到 1.23， 而 将 1.2350001 舍 入 到 1.24， 因 为 它们 不 是 在 1.23 和 1.24 的 正中 间 。 另 一 方面 我 们 将 把 两 个 数 1.2350000 和 1.2450000 都 舍 入 到 1.24， 因 为 4 是 偶数 。 


由 IEEE 浮 点 格式 定义 的 舍 入 方式 可 知 ， 不 论 使 用 哪 种 舍 入 方式 ， 都 会 产生 舍 入 误差 。 如 果 在 一 系列 运算 中 的 一 步 或 几 步 产生 了 舍 入 误差 ， 在 某 些 情况 下 ， 这 个 误差 将 会 随 着 运算 次 数 的 增加 而 积累 得 很 
大 ， 最 终 会 得 出 没有 意义 的 运算 结果 。 因 此 ， 建 议 不 要 将 浮 点 数 用 于 精确 计算 。 


当然 ， 理 论 上 增加 数字 位 数 可 以 减少 可 能 会 产生 的 舍 入 误差 。 但 是 ， 位 数 是 有 限 的 ， 在 表示 无 限 浮 点 数 时 仍然 会 产生 误差 。 在 用 常规 方法 表示 浮 点 数 的 情况 下 ， 这 种 误差 是 不 可 避免 的 ， 但 是 可 以 通过 
设置 警戒 位 来 减 小 。 


除 此 之 外 ，IEEE 754 还 提出 5 种 类 型 的 浮 点 异常 ， 即 上 溢 、 下 溢 、 除 以 零 、 无 效 运算 和 不 精确 。 其 中 ， 每 类 异常 都 有 单独 的 状态 标志 。 鉴 于 篇 幅 有 限 ， 本 节 就 不 再 详细 介绍 ， 有 兴趣 的 读者 可 以 参考 IEEE 
754 标 准 文档 《IEEE Standard 754 for Binary Floating-Point Arithmetic》 进 行 学 习 。 


D Significand， 有 效 数字 也 被 称 为 尾数 (Mantissa) 。 


建议 3-2: 避免 使 用 浮 点 数 进行 精确 计算 


Ru 


i 面 已 经 阐述 过 ， 由 于 计算 机 的 字 长 有 限 ， 浮 点 数 能 够 精确 表示 的 数 是 有 限 的 。 因 此 在 进行 数值 计算 时 ， 有 可 能 要 对 计算 得 到 的 中 间 结 果 数 据 使 用 相关 的 舍 入 规则 来 取 近 似 值 ， 而 这 就 会 导致 计算 过 程 
产生 误差 。 示 例如 代码 清单 1-18 所 示 。 


代码 清单 1-18 ” 浮 点 数 计算 示例 


#include <stdio.h> 
#include <limits.h> 
float average (float *arr, size t size) ; 
enum { array size = 10 }; 
int main (void) 
{ 
float arr[array size]; 
size 七 i=0; 
for (i=0; i< array size; i++) 
{ 
arr[i] = 5.1; 
} 
printf ("total / size = %f\n", average (arr, array size) ) ; 
return 0; 


float average (float *arr, size t size) 
{ 
float total = 0.0; 
size t i=0; 
if 【size > 0&g&size<=SIZE MAX) 
{ 
for (i=0; i< size; i++) 
{ 
total += arr[i]; 
printf ("arr[%d] = %f , total = %f\n", 
4 ‘arc[lils total) ; 
} 


return total / size; 
else 


return 0.0; 


在 代码 清单 1-18 中 ， 程 序 取 了 10 个 相同 的 浮 点 数 (5.1) 来 计算 其 平均 值 。 理 论 上 ， 由 于 这 10 个 浮 点 数 是 相同 的 ， 都 是 5.1， 因 此 所 计算 得 出 的 平均 值 也 应 该 是 5.1。 但 实际 计算 结果 并 非 如 此 ， 如 图 1-28 
所 示 。 


5 .1080800 total 5 ,1800800 

5 .100600 total 10.20886009 
5 ,1008800 total 15.299999 
5 .1008900 total = 20.408009 
5 .100800 total 25 .560808000 


5 180899860 total 30.60886009 

5 10900800 total 35 .7080801 

5 .10DDBB0 。total 40.799999 

5 180800 . total 45 .899998 

5 .100800 . total = 50.999996 
total / size = 5.899999 


图 1-28 代码 清单 1-18 在 GCC 中 的 运行 结果 


是 什么 原因 导致 产生 图 1-28 所 示 的 结果 呢 ? 


如 果 你 详细 看 完 建议 3-1 中 的 内 容 ， 相 信 找 出 答案 并 不 难 。 其 实 ， 之 所 以 得 到 这 样 的 运行 结果 ， 归 根 结 底 就 是 因为 5.1 无 法 精确 地 表达 为 相应 的 浮 点 数 ， 而 只 能 保存 为 经 过 舍 入 计算 的 近似 值 。 这 个 近似 
值 再 进行 累加 运算 之 后 ， 自 然 无 法 产生 精确 的 结果 ， 最 后 的 平均 值 结果 也 就 自然 而 然 地 产生 了 误差 。 


为 了 让 大 家 能 够 更 加 清楚 地 看 见 其 结果 的 舍 入 情况 ， 笔 者 把 代码 清单 1-18 里 的 浮 点 数 保留 到 小 数 点 22 位 ， 如 下 所 示 : 


Printf ("total / size = %.22f\n", average (arr, array size) ) ; 
Printf ("arr[%d] = $.22f ， total = %.22f\n", i, arr[il]， total) ; 


运行 调整 后 的 代码 清单 1-18， 你 就 可 以 清楚 地 看 见 其 舍 入 结果 ， 如 图 1-29 所 示 。 


5 .80929399998463256835933750 total 5.8999999846325683593750 
5 .8999999846325683593750 total A 
= 5.0999999846325683593750 total 15.29999923786085468758609 
5 .0999999846325683593750 total 20.39999961853062734375808 
5.09999998463256835937?750 total 25 .50080080006000009000000 


A total 30.60000038146972656258009 
5 .0999999846325683593750 total 35 .?0080076293945312588008 
= 5.0999999846325683593750 total 40.799999237860546875806009 
5.0999999846325683593750 total 45 .89999771118164862588009 
> total 50.99999618538627?7343758008 

= 5.0999994277954181562580 


图 1-29 ”调整 后 的 代码 清单 1-18 在 GCC 中 的 运行 结果 ( 浮 点 数 保留 22 位 小 数 ) 


当然 ， 这 种 结果 并 不 是 唯一 的 ， 如 果 编 译 器 不 同 ， 舍 入 的 值 也 有 可 能 会 不 同 。 例 如 ， 在 VC+ +2010 中 运行 调整 后 的 代码 清单 1-18 的 结果 如 图 1-30 所 示 。 


5 .089999998463256848860080 total 5 .8089999998463256848860880 

5 .8999999846325684880080 total 10.1999998892651378688608800 

5.099999984632568488680080 total 15 .2999992378B60547B8DDBDB 

5 .08999999846325684880980 total 20.3999996185308273886098009 

EAT total 25 .50080080000000000000009 

5 .80899999984632568488680680 total 30.600800381469727886086009 

5 .808999999846325684880980 total 35 .7?008007629239453880988009 

= 5 .0999999846325684880080 total 40.799999237860547686068600 

5 .99999939984632568409600990 total 45 .899997711181641886800800 

akFI9] 5 .899999998463256849B0DB88 - total 50.239999618530273498009808 
total ~ size = 5.09999942779541820880080 


图 1-30 ”调整 后 的 代码 清单 1-18 在 VC++2010 中 的 运行 结果 ( 浮 点 数 保留 22 位 小 数 ) 


由 此 可 以 看 出 ， 浮 点 数据 会 因为 其 舍 入 误差 而 导致 运算 结果 产生 误差 ， 从 而 失去 精确 性 。 因 此 ， 我 们 应 该 尽量 避免 使 用 浮 点 数 进行 精确 计算 。 


当然 ， 对 于 代码 清单 1-18， 我 们 还 可 以 通过 整数 代替 浮 点 数 的 方法 来 执行 内 部 加 法 ， 以 保证 其 结果 的 精确 性 。 而 浮 点 数 只 用 在 打印 结果 及 执行 除法 计算 算术 平均 值 的 时 候 ， 如 代码 清单 1-19 所 示 。 


代码 清单 1-19 ”整数 代 蔡 浮 点 数 示例 


#include <stdio.h> 

#include <limits.h> 

float average (int *arr, size t size) ; 
enum { array size = 10 }; 


int main (voi 


printf ("total / size = %f\n", average (arr, array size) ); 
return 0 


} 


float average (int *arr, size t size) 
{ 

int total = 0; 

size 七 i=0; 

if 【size > 0g&g&size<=SIZE MAX) 

{ 


for (i= 0; i< size; i++) 
total += arr[i]; 
Printf ("arr[%d] = $f ， total = %f\n", i, 
(float) arr[i]/100, (float) total/100) ; 
} 
return (float) (total/ size) /100; 


else 


return 0.0; 


上 面 代码 的 运行 结果 如 图 1-31 所 示 。 虽 然 采用 这 种 方法 就 可 以 避免 浮 点 数 的 舍 入 误差 带 来 的 不 精确 性 ， 但 在 一 般 情 况 下 不 建议 这 样 做 。 


SCcC i-19.c 一 0 1-19 


5 188008 total 5 1089908 
arr[li] 5 .1980809008 total i108 .280080 
arr[2] 5 .19880908 total 15 .380080 
rr[3] 5 .1880088 total 28 .480080 
krd4] 5 ,18088068008 上 oa 1 25 .5D0DBD 
kfEo5 ] | total 38.680080 
rr[6] 5 -10980099 total 35 . 27280080 
kfL[7] 5.1880088 。total 4 日 .8BDDBD 
arr[8] 5 .188088 . total 45 .980080 
arr[L9] 5 .1BBDO9B ,. total 51 .086000080 
otal ~ size = 5.108008 


图 1-31 代码 清单 1-19 在 GCC 中 的 运行 结果 


在 上 面 的 建议 3-1 与 建议 3-2 中 ， 已 经 明确 阐述 ， 由 于 计算 机 的 字 长 有 限 ， 浮 点 数 能 够 精确 表示 的 数 是 有 限 的 。 因 此 ， 在 C 语 言 中 使 用 float 或 者 double 类 型 来 存储 小 数 是 不 能 得 到 精确 值 的 。 虽 然 在 建议 
3-2 的 最 后 提出 使 用 整数 的 方法 来 解决 浮 点 数 的 精确 计算 问题 ， 但 这 种 方案 不 具备 代表 性 和 通用 性 。 因 此 ， 本 建议 将 向 你 介绍 第 二 种 精确 表示 浮 点 数 的 解决 方法 ， 即 用 分 数 来 表示 浮 点 数 。 


对 于 一 个 浮 点 数 ， 我 们 可 以 简单 地 把 它 分 解 成 整数 和 纯 小 数 两 个 部 分 来 分 开 表 示 。 比 如 浮 点 数据 10.234， 它 的 整数 部 分 是 10， 纯 小 数 部 分 是 0.234。 而 对 于 纯 小 数 部 分 ， 受 计算 机 字 长 的 限制 ， 存 储 时 
会 因为 舍 入 规则 而 导致 失去 精确 性 。 因 此 ， 这 个 时 候 就 可 以 将 纯 小 数 部 分 使 用 分 数 来 表示 。 比 如 ， 对 于 有 限 小 数 ， 我 们 可 以 这 样 来 表示 : 


由 此 ， 我 们 可 以 很 简单 地 推导 出 它 的 表示 形式 。 对 于 有 限 小 数 X=0.a1a2.…an (其 中 ，a1，a2，…，an 为 0~ 9 之 间 的 数字 ) ， 它 的 分 数 表示 形式 如 下 : 


上 面前 述 了 有 限 小 数 的 表示 形式 ， 但 对 于 无 限 循环 小 数 如 何 表示 呢 ? 


其 实 仍然 可 以 使 


2 


其 中 ， (3) 表示 循环 体 。 即 ， 对 于 无 限 循环 小 数 X=0.a1a2.…an (b1b2.…bm) 
环 部 分 ) ， 它 的 表现 形式 如 下 : 


_ (aia2 ant0.(biby…bm) 


上 面 的 这 种 形式 来 表示 。 但 无 限 循环 小 数 比 有 限 小 数 多 了 一 个 循环 部 分 ， 


因此 我 们 可 以 用 如 下 方式 来 表示 : 


A anSb1, bz, 


| 
3 )= 
了 


(其 中 ，al1， …， bm 都 是 0~9 的 数字 ，a1a2.…an 表 示 非 循环 部 分 ， 括 号 部 分 (b1b2.…bm) 表示 循 


至 于 循环 部 分 (b1b2.…bm) ， 我 们 可 以 这 样 处 理 ， 即 令 Y=0.b1b2…bm， 那 么 : 


10 


10™ xY=bib>…bua(bib…ba) 
一 10"” x TY=bib…ba+0.(bib…ba) 
r bip2……ba 
(os 


di1d7* 3a 十 Y 
ii) 


X= 10° 


[aaaat 2 


(10=-1) 
] 0 
| es bib……bD。 
aia2 an | 
(10°-1) 
] 0a 
_ (alaz…an) x (10 一 1)+CDib2 bm) 
((10 -JUx10) 


后 (aiai…a)x(10m_1T)Hbib…b。) 
((10m_1) x 109) 


例如 ， 对 于 小 数 0.3 (3) ， 根 据 上 述 方法 转化 为 分 数 应 为 : 


二 


ee 
有 的 精度 只 能 达到 long int 类 型 ， 再 大 就 会 发 生 溢出 。 如 代码 清单 1-20 所 示 。 


下 面 ， 我 们 通过 一 个 示例 程序 演示 一 下 如 何在 C 语 言 程序 中 使 用 这 种 表达 方式 将 浮 点 数 表示 为 分 数 形式 。 值 得 注意 的 是 ， 这 上 


代码 清单 1-20 “分数 表达 浮 点 数 示例 


#include<stdio.h> 
#include<math.h> 
#include<stdlib.h> 
#include<string.h> 
long dtol ( double d ) ; 
long gcd (long a, long b); 
void convertdata (char *str) ; 
struct 
{ 

long zhengshu; 

long xiaoshu; 

long xunhuan; 


long fenmu; 
long fenzi; 
}fenshu; 
union udtol 
{ 
double d; 
long 1; 
Fs 
long dtol ( double d ) 
{ 
union udtol to; 
to.d = d + 6755399441055744.0; 
return to.1; 
} 
long gcd (long a, long Db) 
{ 


if (! b) 


return a; 


return gcd (b, a%b); 
} 


void convertdata (char *str) 


{ 


long gcb=0; 
fenshu.zhengshu =0; 
fenshu.xiaoshu =0; 


fenshu.xunhuan = 0; 
len = strlen (str) ; 
len 1 = len; 


pl = strchr (str, '.'); 
p2 = strchr (str, 《9 
p3 = strchr (str, ') '); 
if (P1) 
{ 
len § = Bl ~ tr; 
于 
if (! p2) 
上 
lon 2 = Jen = Jen tl = 1 
} 
if (p3) 
{ 
Len 2 = B2 = pL" 1; 
len3= p33- p= 1; 
} 
1 en 2 
m= len 3; 
for (i = 0; i < len 1; i++) 
{ 


fenshu.zhengshu *= 10; 
fenshu.zhengshu += str[i] - '0'; 


for (T= 1* Ten 2 3 


fenshu.xiaoshu *= 10; 
fenshu.xiaoshu += str[len 1+1+j] - '0'; 


for (z= 0; z < len 3; z++) 


fenshu.xunhuan *= 10; 
fenshu.xunhuan += str[len lt+len 2+2+z] - '0'; 
} 
fenshu. fenmu =dtol ( (pow (10.0, (double) (mm ) - 1.0) 
* (pow (10.0, (double) (n) ) ) ) ; 
fenshu.fenzi = dtol (fenshu.xiaoshu 
* (pow (10.0, (double) (m) ) - 1.0) 
+ fenshu.xunhuan) ; 
gcb = gcd (fenshu.fenzi, fenshu.fenmu) ; 
fenshu. fenmu /= gcb; 
fenshu.fenzi /= gcb; 


int main (void) 


for (; ; ) 
{ 
char str[200] = "™"; 
printf (" 请 输入 要 转换 的 数 (如 25.444 (234) ) : ") ; 
Scanf ("%s", &str) ; 
convertdata (str) ; 
printf ("整数 部 分 : 1d-- 小 数 部 分 :1d-- 循 环 部 分 : ld\n"， 
fenshu.zhengshu, fenshu.xiaoshu, fenshu.xunhuan) ; 
Printf ("所 得 分 数 为 : %ld/%ld\n"， 
fenshu. fenzi, fenshu.fenmu) ; 
WE We 3 
} 


return 0; 


代码 清单 1-20 的 运行 结果 如 图 1-32 所 示 。 


在 


网 


1-32 中 ， 通 过 分 数 的 形式 表示 浮 点 数 ， 从 而 避免 浮 点 数 因为 舍 入 误差 而 导致 的 不 精确 性 问题 。 有 : 


兴趣 的 朋友 可 以 在 这 个 示例 代码 的 基础 继续 深入 研究 ， 从 而 使 该 方案 能 够 


于 实际 的 开发 环境 中 。 


收 Yisual Studio Comnnand Proapt (2010) — 1-20 


: \c \ >1- 20 | 
于 轩 i 要 转换 的 数 ctp25. 444¢23 
CE 7: 23 一 一 


小 数 部 分 :33 一 逢 
83078/249975 


在 整 型 数据 中 ， 我 们 一 般 都 使 


”操作 符 来 判断 两 个 数 是 否 相 等 。 在 浮 点 数据 的 运算 中 ， 也 存在 着 “== 


Ep 


环卫 分 : 


图 1-32 ”代码 清单 1-20 的 运行 结果 


”操作 符 ， 那 么 是 否 也 可 以 使 


个 问题 ， 示 例 程序 如 代码 清单 1-21 所 示 。 


代码 清单 1-21 浮 点 数 相等 判断 示例 


#include <stdio.h> 
int main (void) 
{ 
float f1=3.46f; 
float f2=5.77f; 
float f3=9.23f; 
printf ("fl (3.46f) =%0.20f\nf2 (5.77f) =%0.20f\nf1+f2=%0.20f\n 
3 "(9,23£) =%0.20F\a",. fl1,.225 有 HE £3) ; 
if (f1+f2==f£3) 
{ 
printf ("fl1+f2==f3\n") ; 


printf ("f1+f2! =f3\n") ; 
} 


return 0; 


在 代码 清 
33 所 示 。 


单 1-21 中 ， 


要 想 使 语句 “if (f1+f2== 和 人) “ 


分 别 定义 了 3 个 float 变 量 f1、f2 与 和 13。 从 表面 上 看 ，f1+f2 的 值 应 该 是 9.23， 


返回 true， 那 么 f1+f2 和 f3 在 浮 点 格式 的 精度 限制 内 必须 严格 相等 。 


因此 执行 条 件 判断 语句 


"if (f1+f2==f3) ”时 ， 应 该 返 


这 也 就 意味 着 ,一 般 情形 下 (0 除外 ) ， 浮 点 格式 中 


¥isual Studio Connand Proapt (2010) 


1 Do 


Ff1C3.46f 2=3.460860038146972780809 


E25 


fi1i+£2=9 .23008001907348630800 
Ff3C9 .23f =9 .2299995422363281BDDB 
E12*=£3 


Be A EEE A 


可 true。 但 实际 的 运行 结果 并 非 如 此 ， 如 


这 个 “==” 操 作 符 来 判断 两 个 浮 点 数 是 否 相等 呢 ? 带 着 这 


[ 


的 每 一 个 位 都 必须 相等 。 


由 于 浮 点 数 存在 误差 ， 即 使 是 同一 意义 上 的 值 ， 如 果 来 源 不 同 ， 那 么 判断 也 就 可 能 


数学 或 工程 意义 上 的 相等 。 在 浮 点 计算 中 两 个 数据 相等 的 含义 通常 是 指 在 误差 范围 


既然 不 能 使 


一 般 情况 下 ， 浮 点 数 的 相等 判断 通常 使 


如 下 形式 ， 即 


图 1-33 ”代码 清单 1-21 的 运行 结果 


不 会 为 true。 换 句 话说 ， 在 浮 点 计算 中 ， 


==” 的 作用 是 比较 两 个 浮 点 数 是 否 


内 ， 两 个 数据 的 意义 一 致 ( 即 二 者 描述 的 物理 量 的 取 值 一 致 ， 或 者 说 相 容 ) 


“==” 操 作 符 进行 判断 ， 那 么 我 们 又 应 该 怎样 正确 判断 两 个 浮 点 数 是 否 相等 呢 ? 


有 完全 相同 的 格式 数据 ， 而 不 是 一 般 
， 因 此 不 能 ==” 操 作 符 进行 判断 。 


示例 代码 如 下 所 示 : 


if (fabs (a-b) < epsilon) 


其 中 ，epsilon 是 一 个 绝对 的 数据 。 采 用 这 种 形式 来 判断 相等 ， 很 显然 ， 如 何 确定 A 就 成 了 问题 的 关键 所 在 。A 值 的 确定 需要 考虑 数值 背后 的 含义 ， 而 且 它 总 是 与 误差 的 概念 相 随 。 


(1) 依据 数据 误差 进行 判断 


如 果 两 个 数据 相差 A， 假 设 一 个 数据 的 误差 是 A1， 另 一 个 数据 的 误差 是 A2， 那 么 一 个 简单 的 判 据 是 : 


了 V 


实际 上 ， 如 果 数 据 不 是 直接 来 自 某 个 测量 设备 ， 而 是 某 个 仿真 系统 的 输出 或 者 是 测量 数据 经 过 一 系列 处 理 的 结果 ， 那 么 A1 和 A2 大 多 没有 确定 的 值 。 此 外 ， 这 种 方法 在 理论 上 也 不 够 严谨 ， 只 是 便于 使 


而 已 。 


(2) 依据 允许 误差 进行 判断 


在 许多 情况 下 ， 计 算 精度 和 数据 精度 均 远 远 超过 了 实际 需求 ， 使 用 数 


遇 误 差 进行 相等 判断 除了 加 大 计算 量 之 外 ， 没 有 实际 意义 。 此 时 ， 则 可 根据 实际 精度 需求 确定 允许 误差 ， 然 后 用 人 允许 误差 蔡 代 数据 


误差 进行 相等 判断 。 这 种 方法 更 简单 ， 而 且 人 允许 误差 一 般 远大 于 数据 误差 ， 可 以 减 小 计算 量 。 不 过 ， 所 谓 的 允许 误差 往往 没有 确定 的 值 ， 主 要 依据 经 验 来 判断 ， 因 此 有 较 大 的 不 确定 性 。 


虽然 相对 于 “==” 操 作 符 ， 使 用 f (fabs (a-b) <epsilon) 形式 进行 判断 是 一 个 比较 好 的 解决 方案 ， 但 它 却 存在 着 一 定 的 局 限 性 。 比 如 ，epsilon 的 取 值 为 0.0001， 而 a 和 b 的 数值 大 小 也 在 0.0001 附 


近 ， 那 么 它 显然 是 不 合适 的 。 另 外 ， 对 于 a 和 b 大 小 是 10000 这 样 的 数据 ， 它 也 不 合适 ， 因 为 10000 和 10001 也 可 以 认为 是 相等 的 。 


既然 这 种 绝对 误差 形式 “if (fabs (a-b) <epsilon) ”存在 着 局 限 性 ， 


bool IsEqual (float a, float b, float epsilon ) 
{ 


那么 我 们 可 以 尝试 使 用 相对 误差 的 形式 “fabs ( (a-b) /a) <epsilon” 进 行 判 断 ， 示 例 代码 如 下 所 示 : 


return ( fabs ( (a-b) /a ) < epsilon ) ? true : false; 


} 


这 样 的 判断 形式 看 起 来 是 可 行 的 ， 但 它 同 样 存在 着 局 限 性 。 因 为 它 是 拿 固 定 的 第 一 个 参数 做 比较 的 ， 如 果 我 们 分 别 调用 IsEqual (a，b，epsilon) 和 IsEqual (b，a，epsilon) ， 那 么 可 能 会 得 到 不 同 


的 结果 。 与 此 同时 ， 如 果 第 一 个 参数 是 0， 很 可 能 会 产生 除 0 溢出 。 因 此 ， 我 们 可 以 把 上 面 的 判断 形式 改造 为 : 除数 选取 为 a 和 b 当 中 绝对 数值 较 大 的 即 可 ， 示 例 代码 如 下 所 示 : 


bool IsEqual (float a, float b, float epsilon ) 
if (fabs (a) >fabs (b) ) 
return ( fabs ( (a-b) /a) < epsilon ) ? true : 
else 


return (fabs ( (a-b) /b) < epsilon ) ? true : 


false; 


false; 


这 样 看 起 来 就 更 加 完善 了 。 当 然 ， 在 某 些 特殊 的 情况 下 ， 相 对 误差 也 不 能 代表 全 部 。 因 此 ， 我 们 还 需要 将 相对 误差 和 绝对 误差 结合 使 用 。 完 整 的 比较 示例 代码 如 下 所 示 : 


bool IsEqual (float a, float b, float epsilon ) 
| if (a==b) 
return true; 
站 (fabs (a-b) <epsilon ) 
return true; 
(fabs (a) >fabs (b) ) 
return ( fabs ( (a-b) /a) < epsilon ) ? true : 
else 


return (fabs ( (a-b) /b) < epsilon ) ? true : 


false; 


false; 


建议 3-5: 避免 使 用 浮 点 数 作为 循环 计数 器 


由 于 不 同 的 系统 具有 不 同 的 浮 点 数 精度 限制 ， 为 了 使 代码 保持 良好 的 可 移植 性 ， 我 们 应 该 坚决 避免 使 用 浮 点 数 来 作为 循环 计数 器 。 


为 了 让 读者 更 加 深刻 地 了 解 使 用 浮 点 数 作为 循环 计数 器 会 产生 的 严重 后 果 ， 接 下 来 看 一 段 示例 代码 : 


float x; 
for (x=100000001.0f; x<=100000010.0f; x+=1.0f) 
{ 


Deinte ke 六 


在 上 面 的 代码 中 ， 我 们 使 用 了 一 个 非常 大 的 浮 点 数 (100000001.0f) 来 作为 循环 计数 器 ， 并 且 每 循环 一 次 就 会 使 变量 x 增加 1.0f。 从 表面 上 来 看 ， 上 面 的 代码 应 该 会 循环 执行 10 次 累加 1.0f。 


但 实际 情况 并 非 如 此 ， 相 对 于 浮 点 数 (100000001.0f) 而 言 ， 如 果 一 个 浮 点 循环 计数 器 的 增 量 太 小 ， 那 么 它 就 无 法 在 它 的 精度 下 更 改 值 。 因 此 ， 在 许多 编译 器 中 ， 上 面 的 这 段 代码 将 会 产生 一 个 无 限 循 
环 。 例 如 在 VC+ +2010 中 的 运行 结果 如 图 1-34 所 示 。 


C: \W¥INDOVS\systenm32\cnd. exe 


L0060000 .000080 

B9000000 .009088609 
HodBGonde 00000600 
i008600000 . 00DDBDD 


109080008 .8090880 
i00000000 .000080 
i1090986000 .60900060 
i1008@0008 .000060 
L00060000 .000000 


图 1-34 ”在 VC++2010 中 的 运行 结果 


上 面 的 示例 代码 演示 了 以 一 个 大 的 浮 点 数 (100000001.0f) 来 作为 循环 计数 器 的 情况 。 或 许 这 个 时 候 有 人 会 想 ， 如 果 换 用 一 个 小 的 浮 点 数 作为 循环 计数 器 结果 会 怎样 呢 ? 


带 着 这 个 问题 ， 我 们 继续 看 下 面 的 示例 代码 : 


float x; 
for (x=0.1f; x<=1.0f; x+=0.1f) 
{ 

Printf (nf\nr, wm) 3 


很 显然 ， 上 面 的 代码 使 用 了 一 个 比较 小 的 浮 点 数 (1.0f) 作为 循环 计数 器 ， 并 且 每 循环 一 次 变量 x 就 会 增加 0.1f。 但 是 在 这 里 问题 出 现 了 ,十进制 的 0.1 用 二 进 制 表示 是 一 个 重复 的 无 限 循环 小 数 ， 也 就 是 
说 无 法 准确 地 使 用 二 进 制 表示 ， 它 的 精度 会 受 损 。 如 果 在 VC++2010 中 运行 上 面 这 段 代 码 ， 那 么 循环 只 会 执行 9 次 ， 如 图 1-35 所 示 。 


co C:\VINDOVS\systend2\cn 
四 .190009 


a.680009 


0.7860000 

.880000 
0.900000 
请 按 任 总 入 


图 1-35 ”在 VC++2010 中 的 运行 结果 


由 上 面 的 两 个 示例 代码 可 以 看 出 ,不论 是 使 用 大 的 还 是 小 的 浮 点 数 来 作为 循环 计数 器 ， 都 会 导致 出 乎 意料 的 结果 。 因 此 ， 我 们 应 该 避免 使 用 浮 点 数 作为 循环 计数 器 。 如 果 必 须 这 么 做 ， 我 们 也 应 该 想 办 
法 将 其 转换 成 整数 的 形式 进行 。 如 下 面 的 示例 代码 所 示 : 


float x; 
size t i; 
for (i=1; i<=10; i+=1) 
{ 
x=i/10.0f; 
Brinte ("SE wy 3 


} 


建议 3-6: 尽量 将 浮 点 运算 中 的 整数 转换 为 浮 点 数 


在 讨论 这 个 话题 之 前 ， 我 们 先 看 一 个 示例 程序 ， 如 代码 清单 1-22 所 示 。 


代码 清单 1-22 ” 浮 点 数 运 算 示例 


#include <stdio.h> 
int main (void) 
{ 
int i1=321; 
float fl= (float) (i1/9) ; 
float f2=i1/9.0f; 
float f3= (float) i1/9; 
float f4= (float) i1/9.0f; 
printf (" (float) (i1/9) =%f\nil/9.0f=%f\n (float) i1/9=%f\n 
(float) i1/9.0f=%f\n", f1, £2, £3, £4) ; 


在 代码 清单 1-22 中 ， 我 们 定义 了 一 个 int 类 型 的 变量 i1， 并 将 i1 除 以 9 的 值 分 别 赋 给 了 float 类 型 的 变量 f1、f2、f3 与 人 4。 从 表面 上 来 看 ， 最 后 f1、f2、f3 与 {4 的 结果 应 该 完全 相同 。 


但 实际 情况 并 非 如 此 ， 当 程序 执行 语句 “float f1= (float) (i1/9) ”时 ， 它 会 先 执行 表达 式 “i1/9” ， 然 后 将 表达 式 “i1/9” 的 执行 结果 35 转 换 成 浮 点 类 型 再 赋 给 f1， 这 样 就 严重 地 导致 数据 丢失 。 
执行 “float f1= (float) (i1/9) ”语句 在 VC++2010 中 产生 的 汇编 代码 如 下 所 示 : 


004113A5 mov eax, dword ptr [il] 
004113A8 cdq 

004113A9 mov ecx, 9 

004113AE idiv eax, ecx 

004113B0 mov dword ptr [ebp-100h], eax 
004113B6 fild dword ptr [ebp-100h] 
004113BC fstp dword ptr [fl1] 


但 当 我 们 将 计算 表达 中 的 一 个 整数 转换 为 浮 点 类 型 时 ， 如 执行 语句 “float f2=i1/9.0f” 时 ， 它 将 先 执行 数据 转换 操作 ， 即 先 将 变量 i1 转 换 为 浮 点 类 型 ， 然 后 再 执行 除法 计算 。 执 行 “float 
f2=i1/9.0f” 语 句 在 VC++2010 中 产生 的 汇编 代码 如 下 所 示 : 
004113BF fild dword ptr [il] 


004113C2 fdiv qword ptr [_ real@4022000000000000 (415788h) ] 
004113C8 fstp dword ptr [£2] 


代码 清单 1-22 的 运行 结果 如 图 1-36 所 示 。 


Yisual Studio Coaaand Prompt (2010) 


E:Nc\L 7 一 22 

‘float 2>Ci1/9>=35 -090000900 
il/9 .gf=35 .bbbbb8 

《float >i1/9=35 .666668 

<f loat >i1/9 .0f=35.666668 


图 1-36 ”代码 清单 1-22 的 运行 结果 


因此 ， 为 了 避免 出 现 这 种 信息 丢失 的 情况 ， 我 们 在 使 用 整数 运算 计算 一 个 值 并 把 它 赋 给 浮 点 变量 时 ， 必 须 将 表达 式 中 的 一 个 或 全 部 整数 转换 为 浮 点 数 。 


建议 4: 数据 类 型 转换 必须 做 范围 检查 


在 C 语 言 中 ， 数 据 类 型 转换 一 般 可 分 为 隐 式 转换 和 显 式 转换 ， 也 称 为 自动 转换 和 强制 转换 。 其 中 ， 常 见 的 隐 式 转换 有 4 种 ， 如 下 所 示 。 


1) 一 般 算术 转换 : 通过 某 些 运算 符 将 操作 数 的 值 从 一 种 类 型 自动 转换 成 另 为 一 种 类 型 ， 这 一 规则 为 “由 低级 向 高 级 转换 ”， 具 体 如 图 1-37 所 示 。 


= 


3 
19] 


double 


unsigned 


charshort 


图 1-37 数据 类 型 转换 规则 


根据 图 1-37 所 示 的 规则 可 知 ， 若 参与 运算 的 变量 类 型 不 同 ， 则 先 将 变量 的 类 型 转换 成 同一 类 型 ， 然 后 再 进行 运算 。 例 如 ，int 类 型 的 变量 和 long 类 型 的 变量 参与 运算 时 ， 则 会 先 把 int 类 型 的 变量 转 成 
long 类 型 ， 然 后 再 进行 运算 。 


这 里 需要 特别 注意 的 是 ， 所 有 的 浮 点 运算 都 是 以 双 精 度 进行 的 ， 即 使 表达 式 中 仅 含 float 单 精度 变量 ， 也 要 先 将 其 转换 成 double 类 型 后 再 进行 运算 。 同 时 ， 如 果 char 类 型 的 变量 和 short 类 型 的 变量 参与 
运算 ， 则 必须 先 转换 成 int 类 型 。 


2) 输出 转换 : 输出 的 操作 数 类 型 与 输出 的 格式 不 一 致 时 所 进行 的 数据 类 型 的 转换 。 如 下 面 的 示例 代码 所 示 : 


Erinte (vam. =1} 3 


在 VC++2010 中 ， 上 面 的 代码 将 输出 的 值 为 4294967295。 


3) 赋值 转换 : 在 赋值 运算 过 程 中 将 赋值 运算 符 右 侧 的 操作 数 类 型 转换 成 左 侧 操 作 数 据 的 类 型 。 


4) 函数 调用 转换 : 当 实 参 类 型 和 形 参 类 型 不 一 致 时 数据 所 进行 的 转换 。 


同样 ， 显 式 转换 也 提供 了 两 种 转换 方法 ， 如 下 所 示 。 


1) 强制 性 数据 类 型 转换 : 它 是 将 一 种 类 型 的 数据 强制 转换 成 为 另 一 种 数据 类 型 。 其 格式 为 : 


(数据 类 型 标识 符 ) 表达 式 ; 


其 作用 是 将 表达 式 的 数据 类 型 强制 转换 成 数据 类 型 标识 符 所 表示 的 类 型 。 示 例 代码 如 下 所 示 : 


int il=321; 
float f4= (float) i1/9.0f; 


2) 利用 C 语 言 提供 的 标准 函数 转换 ， 示 例 代 码 如 下 所 示 : 


mt 注 了 3 

char *e; 

C="123"; 

il=atoi (c) ; 
printf ("sd", 11) ; 


建议 4-1: 整数 转换 为 新 类 型 时 必须 做 范围 检查 


关于 整数 类 型 数据 的 转换 原则 ， 在 C99 的 6.3.1.3 节 中 做 了 非常 重要 的 阐述 ， 其 表达 的 主要 意思 如 下 : 


当 我 们 将 一 个 整数 类 型 的 数据 转换 成 除 _Bool 类 型 之 外 的 另 一 个 整数 类 型 时 ， 如 果 这 个 值 可 以 被 新 的 整数 类 型 所 表示 ， 那 么 它 就 不 会 被 修改 ， 可 以 正确 转换 ; 如 果 所 转换 的 新 类 型 是 无 符号 的 ， 那 么 这 个 
值 就 会 反复 加 上 或 减 去 这 个 新 类 型 可 以 表示 的 最 大 值 加 1， 直 到 这 个 值 位 于 这 种 新 类 型 的 范围 之 内 ; 如 果 所 转换 的 新 类 型 是 有 符号 的 ， 并 且 这 个 值 无 法 用 新 类 型 表示 ， 那 么 它 的 结果 是 由 编译 器 定义 的 。 


因此 ， 为 了 保证 整 型 数据 转换 时 不 会 发 生 丢失 或 错误 解释 数据 的 情况 ， 我 们 必须 做 一 定 的 范围 检查 ， 以 保证 要 转换 的 数据 的 值 在 新 类 型 的 取 值 范围 之 内 。 而 在 头 文件 imits.h 中 就 定义 了 相关 整 型 数据 的 
取 值 范围 ， 例 如 ， 在 VC+ +2010 中 定义 的 limits.h 部 分 代码 如 下 所 示 : 


#define CHAR BIT 8 /* number of bits in a char */ 
#define SCHAR MIN (=128) /* minimum signed char value */ 
#define SCHAR MAX 127 /* maximum signed char value */ 


#define UCHAR MAX Oxff /* maximum unsigned char value */ 


#ifndef CHAR UNSIGNED 


#define CHAR MIN SCHAR_MIN /* mimimum char value */ 
#define CHAR MAX SCHAR MAX /* maximum char value */ 
#else 本 

#define CHAR MIN 0 


#define CHAR MAX ~ UCHAR MAX 
#endif /* CHAR UNSIGNED */ 


#define MB IFN MARX 5 


/* max. # bytes in multibyte char */ 


#define SHRT MIN (-32768) /* minimum (signed) short value */ 
#define SHRT MAX 32767 /* maximum (signed) short value */ 
#define USHRT MAX Oxffff /* maximum unsigned short value */ 
#define INT MIN (-2147483647 - 1) /* minimum (signed) int value */ 
#define INT MAX 2147483647 /* maximum (signed) int value */ 
#define UINT MAX Oxffffffff /* maximum unsigned int value */ 
#define LONG MIN (-2147483647L - 1) /*minimum (signed) long value */ 
#define LONG MAX 2147483647L /* maximum (signed) long value */ 
#define ULONG MAX OxffffffffUL /* maximum unsigned long value */ 
#define LLONG MAX 9223372036854775807i64 /* maximum signed 


long long int value */ 


#define LLONG MIN  (-9223372036854775807i64 - 1) /* minimum 


signed long long int value */ 


#define ULLONG MAX Oxffffffffffffffffui64 /* maximum unsigned 

long long int value */ 
#define _I8_MIN (~127i8 ~ 1) /* minimum signed 8 bit value */ 
#define I8 MAX 127i8 /* maximum signed 8 bit value */ 
#define UI8 MAX Oxffui8 /* maximum unsigned 8 bit value */ 
#define _I16 MIN (-32767i16 - 1) /* minimum signed 16 bit value */ 
#define I16 MAX 32767i16 /* maximum signed 16 bit value */ 
#define UI16 MAX Oxffffuil6 /* maximum unsigned 16 bit value */ 
#define I32 MIN (-2147483647i32 - 1) /* minimum signed 32 

| bit value */ 

#define I32 MAX 2147483647i32 /* maximum signed 32 bit value */ 
#define UI32 MAX Oxffffffffui32 /*maximum unsigned 32 bit value*/ 
/* minimum signed 64 bit value */ 
#define I64 MIN (-9223372036854775807i64 - 1) 
/* maximum signed 64 bit value */ 
#define I64 MAX 9223372036854775807i64 
/* maximum unsigned 64 bit value */ 
#define UI64 MAX 全 下 在 在 人 下 不 丰 丰 不 下 在任 下 不 人 15 条 
#if _INTEGRAL MAX BITS >= 128 


/* minimum signed 128 bit value */ 
#define I128 MIN (-170141183460469231731687303715884105727i128 - 1) 
/* maximum signed 128 bit value */ 


#define I128 MAX 


170141183460469231731687303715884105727i128 
/* maximum unsigned 128 bit value */ 
#define UI128 MAX 0Oxffffffffffffffffffffffffffffffffui128 


#endif 


举 个 例子 ， 从 一 种 无 符号 类 型 转换 为 一 种 有 符号 类 型 时 ， 就 可 能 发 生 数 据 的 高 位 被 截断 而 导致 数 据 丢 失 ， 或 者 符号 位 丢失 ， 所 以 在 转换 之 前 要 对 取 值 范围 进行 验证 。 下 面 的 示例 代码 演示 了 如 何 从 


unsigned int 类 型 转换 为 signed char 类 型 : 


unsigned int uil=12345; 
signed char scl; 
if (uil>SCHAR MAX) 
{ 
} 
else 
{ 
scl= (signed) uil; 
} 


同样 ， 如 果 将 有 符号 类 型 转换 为 无 符号 类 型 ， 也 必须 进行 取 值 范围 的 验证 ， 示 例 代码 如 下 所 示 : 


signed int sil=-12345; 
unsigned int uil= 0; 

if (sil<0||sil>UINT MAX) 
{ 

} 


else 


uil= (unsigned int) sil; 


在 数据 类 型 由 “高 级 向 低级 ”转换 的 时 候 ， 同 样 必须 进行 取 值 范围 验证 ， 示 例 代码 如 下 所 示 : 


long long int 11i1=LLONG MAX; 


int il= 0; 


if (11]il<INT MIN||11i1>INT MAX) 


{ 
} 


else 


11= (int) 11i1; 


义 的 。 


建议 4-2: 浮 点 数 转换 为 新 类 型 时 必须 做 范围 检查 


关于 浮 点 类 型 数据 的 转换 原则 ， 在 C99 的 6.3.1.4 节 与 6.3.1.5 节 中 做 了 非常 重要 的 阐述 ， 其 表达 的 主要 意思 如 下 : 


当 我 们 将 一 个 浮 点 类 型 的 数据 转换 成 除 _Bool 类 型 之 外 的 一 个 整 型 数据 时 ， 该 浮 点 数 的 小 数 部 分 须 被 丢弃 ， 只 保留 它 的 整数 部 分 。 如 果 浮 点 数 整 数 部 分 的 值 无 法 使 用 这 种 整 型 表示 方法 时 ， 其 行为 是 未 定 


与 此 同时 ， 如 果 我 们 将 一 个 整数 类 型 的 数据 转换 成 一 个 浮 点 类 型 时 ， 如 果 该 整 型 数据 的 值 在 该 浮 点 数 的 取 值 范围 内 ， 并 且 能 够 被 浮 点 类 型 精确 表示 ， 那 么 将 会 被 正确 转换 ; 如 果 该 整 型 数据 的 值 在 该 浮 


点 数 的 取 值 范围 内 ， 但 不 能 够 被 浮 点 类 型 精确 表示 ， 那 么 转换 的 结果 是 最 邻近 的 稍 大 或 者 稍 小 的 可 表示 值 ; 但 如 果 该 整 型 数据 的 值 在 该 浮 点 数 的 取 值 范围 外 ， 其 行为 是 未 定义 的 。 


当 我 们 将 一 个 double 类 型 降级 转换 为 float 类 型 、 将 long double 类 型 降级 转换 到 double 或 者 float 类 型 时 ， 如 果 转 换 的 值 在 新 类 型 的 取 值 范围 内 ， 并 且 能 够 被 新 类 型 精确 表示 ， 那 么 将 会 被 正确 转换 ; 如 果 转 换 


的 值 在 新 类 型 的 取 值 范围 内 ， 但 不 能 够 被 新 类 型 精确 表示 ， 那 么 转换 的 结果 是 最 邻近 的 稍 大 或 者 稍 小 的 可 表示 值 ; 但 如 果 转 换 的 值 在 新 类 型 的 取 值 范围 外 ， 其 行为 是 未 定义 的 。 


由 此 可 见 ， 为 了 避免 浮 点 数据 转换 时 导致 的 未 定义 行为 ， 我 们 应 该 在 转换 时 对 数据 进行 相关 的 范围 检查 。 例 如 ， 下 面 的 代码 清单 1-23 演 示 了 如 何 将 double 类 型 转换 为 int 类 型 。 


代码 清单 1-23 ”double 转换 为 int 类 型 示例 


#include <stdio.h> 
#include<limits.h> 
int main (void) 


double dl=2147483648. 


站 过 


int i1=0; 
if (dl> (double) INT MAX||d1< (double) INT MIN) 
{ 
} 
else 
{ 
il= (int) dil; 


} 
printf ("il=%d\n", i1) ; 
return 0; 


在 上 面 的 程序 中 ,我们 通过 语句 “if (d1> (double) INT_MAXIld1< (double) INT_MIN) ”来 对 程序 做 类 型 转换 时 的 取 值 范围 检查 ， 这 样 就 可 以 避免 在 执行 语句 “i1= (int) d1” 时 发 生 未 定义 行 


但 需要 特别 强调 的 是 ， 上 面 的 程序 是 建立 在 double 类 型 的 取 值 范围 大 于 int 类 型 的 取 值 范围 的 基础 之 上 的 。 因 此 ， 在 使 用 这 种 方法 做 取 值 范围 检查 时 ， 你 必须 完全 明白 不 同 编译 器 所 对 应 的 相关 类 型 的 取 
值 范围 。 假 设 在 某 个 编译 器 中 ，double 类 型 的 取 值 范围 小 于 int 类 型 的 取 值 范围 ， 那 么 上 面 这 种 方法 将 是 不 可 行 的 ， 实 际 上 这 种 情况 基本 没有 。 


相对 于 浮 点 数 与 整数 之 间 的 转换 ， 浮 点 数 与 浮 点 数 之 间 的 转换 就 简单 多 了 。 演 示 示 例如 代码 清单 1-24 所 示 。 


代码 清单 1-24 ”double 与 float 类 型 转换 示例 


#include <stdio.h> 
#include<limits.h> 
#include<float .h> 
int main (void) 
long double 191=1.7976931348623158e+308; 
double dl=1.0; 
double d2=1.0; 
float f1=1.0f; 
float f2=1.0f; 
/*double->float*/ 
if (dl>FLT MAX||d1l<FLT MIN) 
{ 
} 
else 


{ 


i 

/*long double->double*/ 

if (1d1>DBL MAX| |1d1<DBL MIN) 
{ 

i 

else 


{ 


£1= (float) dil; 


d2= (double) 1d1; 


i 

/*long double->float*/ 

if (1d1>FLT MAX||1d1<FLT MIN) 
{ 

} 

else 


{ 
} 


return 0; 


£2= (float) 1d1; 


建议 5: 使 用 有 严格 定义 的 数据 类 型 


大 家 都 知道 ，C 语 言 是 一 种 既 具 有 高 级 语言 的 特点 ， 又 具有 汇编 语言 特点 的 程序 设计 语言 。 它 既 可 以 作为 系统 设计 语言 来 编写 系统 应 用 程序 ， 也 可 以 作为 应 用 程序 设计 语言 来 编写 不 依赖 计算 机 硬件 的 
应 用 程序 。 因 此 ， 它 是 一 种 可 移植 性 很 高 的 语言 ， 用 它 所 写 的 程序 可 以 很 方便 地 部 署 到 不 同 的 平台 之 上 。 


尽管 如 此 ，(C 语 言 在 可 移植 性 方面 实际 上 还 是 存在 着 许多 重要 的 问题 。 除 了 不 同 的 系统 使 用 的 C 语 言 标准 库 不 同 之 外 ， 预 处 理 程序 和 语言 本 身 在 许多 重要 方面 也 会 不 尽 相同 。 我 们 知道 ，ANSI 委 员 会 对 C 
语言 的 大 多 数 问题 进行 了 标准 化 ， 从 而 使 程序 员 可 以 很 方便 地 写 出 可 移植 的 代码 。 但 是 ，ANSI 标 准 却 并 没有 准确 定义 像 char、int 和 long 这 样 的 内 部 数据 类 型 ， 而 是 将 这 些 重要 的 实现 细节 留 给 编译 程序 的 
研制 者 来 决定 。 


例如 ， 某 一 个 ANSI 标 准 的 编译 程序 可 能 具有 32 位 的 int 和 char 类 型 ， 它 们 在 默认 状态 下 是 有 符号 的 ; 而 另 一 个 ANSI 标 准 的 编译 程序 可 能 有 16 位 的 int 和 char 类 型 ， 默 认 状 态 下 是 无 符号 的 。 尽 管 如 此 不 
同 ， 但 这 两 个 编译 程序 却 都 是 严格 符合 ANSI 标 准 的 。 为 了 让 读者 更 加 深入 地 了 解 这 种 情况 ， 我 们 来 看 下 面 一 段 示例 代码 : 


char ch; 

ch= (char) Oxff; 
if (ch == 0xff) 

{ 

} 


在 上 面 的 代码 中 ,我们 先 将 整数 0xff 赋 给 char 类 型 的 变量 ch， 然 后 再 将 ch 变量 与 整数 0xff 进 行 比较 。 从 表面 上 看 , 语句 “if (ch==0xff) ”应 该 返回 真 。 但 实际 情况 并 非 如 此 ， 语 
句 “if (ch==0xff) ”的 具体 返回 值 因 系统 而 异 ， 也 就 是 说 它 有 可 能 返回 真 ， 也 有 可 能 返回 假 。 或 许 有 人 会 疑惑 ， 这 么 明显 的 一 个 语句 怎么 会 发 生 这 种 情况 呢 ? 


其 实 ， 原因 很 简单 。 上 面 我 们 说 过 ，ANSI 标 准确 并 没有 准确 定义 像 char、int 和 long 这 样 的 内 部 数据 类 型 ， 而 是 将 这 些 重要 的 实现 细节 留 给 了 编译 程序 。 因 此 ， 它 的 结果 完全 依赖 于 编译 程序 。 如 果 默 
认 字 符 是 无 符号 的 ， 则 语句 “if (ch==0xff) ”的 返回 值 肯定 为 真 ; 但 对 字符 为 有 符号 的 编译 程序 而 言 ， 语 句 “if (ch==0xff) ”的 返回 值 却 会 为 假 。 


在 上 面 的 代码 中 ， 字 符 ch 要 与 整 型 数 0xff 进 行 比较 。 根 据 C 语 言 的 转换 规则 ， 编 译 程序 必须 首先 将 ch 转换 为 整 型 int， 待 两 者 类 型 一 致 后 再 进行 比较 。 这 样 ， 如 果 int 是 32 位 的 ， 则 在 转换 中 会 将 其 值 从 
0Oxff 扩 充 为 0xffffffff。 因 此 ， 语 句 “if (ch==0xff) ”的 返回 值 就 为 假 了 。 


其 实 ， 对 于 上 面 的 这 些 问 题 ，ANSI 委 员 会 成 员 并 非 视而不见 。 实 际 上 ， 他 们 考查 了 大 量 的 C 语 言 实现 并 得 出 了 这 样 的 结论 : 由 于 各 编译 程序 之 间 的 类 型 定义 是 如 此 不 同 ， 以 致 定义 严格 的 标准 将 会 使 大 
量 现存 代码 无 效 。 而 这 就 恰恰 违背 了 他 们 的 一 个 重要 指导 原则 : “现存 代码 是 非常 重要 的 。 


二 


除 此 之 外 ， 对 类 型 进行 严格 约束 也 将 违背 委员 会 的 另外 一 个 指导 原则 : “保持 C 语 言 的 活力 ， 即 使 不 能 保证 它 具有 可 移植 性 ， 也 要 使 其 运行 速度 快 。” 因 此 ， 如 果实 现 者 感到 有 符号 字符 对 给 定 的 机 器 
来 说 更 有 效 ， 那 么 就 使 用 有 符号 字符 吧 ! 同样 ， 硬 件 实现 者 可 以 将 int 选 择 为 16 位 、32 位 或 别 的 位 数 。 也 就 是 说 ， 在 默认 状态 下 ， 用 户 并 不 知道 位 域 是 有 符号 的 还 是 无 符号 的 。 


当然 ， 这 种 内 部 类 型 在 其 规格 说 明 中 存在 着 一 个 不 足 之 处 ， 在 今后 升级 或 改变 编译 程序 时 ， 或 者 移 到 新 的 目标 环境 时 ， 或 者 与 其 他 单位 共享 代码 时 ， 甚 至 在 改变 工作 且 所 用 编译 程序 的 规则 全 部 改变 
时 ， 这 个 不 足 就 会 体现 出 来 。 但 是 ， 这 并 不 意味 着 用 户 就 不 能 安全 地 使 用 这 些 内 部 类 型 。 其 实 ， 只 要 用 户 不 对 ANSI 标 准 没有 明确 说 明 的 类 型 再 作假 设 ， 用 户 就 可 以 安全 使 用 内 部 类 型 。 例 如 ， 对 于 char 数 据 
类 型 ， 只 要 它 能 提供 0~ 127 的 值 ( 即 有 符号 字符 和 无 符号 字符 域 的 交集 ) ， 一 般 就 是 可 移植 的 。 例 如 下 面 这 段 代码 : 


int strcmp (const char *strLeft, const char *strRight) 
assert (strLeft! =NULL&&strRight! =NULL) ; 
int ret=0; 
while (! (ret= *strLeft-*strRight) && *strRight) 
{ 
strLeft++, strRight++; 
t 
if (ret<0) 
{ 
ret=-1; 
} 
else if (ret>0) 
{ 
ret=1; 
else 


ret=0; 


return ret; 


在 上 面 代 码 中 ，strcemp 函 数 用 于 比较 两 个 字符 串 。 如 果 strLeft < strRight， 则 返回 -1; 如 果 strLeft==strRight， 则 返回 0; 如 果 strLeft>strRight， 则 返回 1。 从 表面 上 看 ，strcemp 函 数 并 没有 什么 大 的 
问题 ， 但 如 果 仔 细 观 察 ， 你 会 发 现 strcmp 函 数 在 可 移植 方面 存在 问题 。 因 此 ， 我 们 需要 将 strLeft 和 strRight 参 数 声明 为 无 符号 字符 指针 ， 如 下 面 的 代码 所 示 : 


int strcmp (const unsigned char *strLeft, 
const unsigned char *strRight) 
{ 
assert (strLeft! =NULL&&strRight! =NULL) ; 
int ret=0; 
while (! (ret= *strLeft-*strRight) && *strRight) 
{ 
strLeft++, strRight++; 


} 
if (ret<0) 
ret=-1; 
i 
else if (ret>0) 
ret=1; 
else 
ret=0; 


return ret; 


当然 ， 我 们 也 可 以 直接 在 函数 里 对 其 进行 修改 ， 如 下 面 的 代码 所 示 : 


int strcmp (const char *strLeft, const char *strRight) 
{ 
assert (strLeft! =NULL&&strRight! =NULL) ; 
int ret=0; 
while (! (ret= * (unsigned char*) strLeft 
—* (unsigned char*) strRight) && *strRight) 
{ 
strLeft++, strRight++; 
} 
if (ret<0) 
{ 
ret=-1; 
k 
else if (ret>0) 
{ 
ret=1; 
else 


ret=0; 


return ret; 


其 实 ， 面 对 上 面 的 问题 时 ， 只 需要 记 住 一 个 简单 的 原则 ， 就 是 不 要 在 表达 式 中 使 用 “简单 的 ”字符 。 当 然 ， 位 域 也 有 同样 的 问题 ， 因 此 也 有 一 个 类 似 的 原则 : 任何 时 候 都 不 要 使 用 “简单 的 ”位 域 。 例 
如 ， 下 面 的 代码 在 任何 编译 程序 上 都 可 以 工作 ， 因 为 它 没有 对 域 作 假定 。 


char* strcpy (char *strDst, const char *strSrc) 
{ 
Char *ret = strDst; 
assert (strDst! =NULL&&strSrc! =NULL) ; 
while ( (*strDst++=*strSrc++) &&strlen (strDst) ! =0) 
NULL; 
return ret; 


最 后 ， 对 于 编写 可 移植 程序 还 有 这 样 一 个 问题 : 有 些 程序 员 可 能 会 认为 使 用 可 移植 的 类 型 比 使 用 “自然 的 ”类 型 效率 更 低 。 例 如 ， 假 定 int 类 型 的 物理 字 长 对 目标 硬件 是 最 有 效 的。 这 就 意味 着 这 种 “ 
然 的 ”位 数 可 能 大 于 16 位 ， 所 保持 的 值 也 可 能 大 于 32767。 现 在 假定 用 户 的 编译 程序 使 用 的 是 32 位 的 int， 且 要 求 使 用 0 至 40000 的 值 域 。 那 么 ， 是 为 了 使 机 器 可 以 在 int 内 有 效 地 处 理 40000 个 值 而 使 用 int 
呢 ， 还 是 坚持 使 用 可 移植 类 型 ， 而 用 long 代 蔡 int 呢 ? 


其 实 这 要 具体 情况 具体 分 析 。 


对 于 对 效率 要 求 比较 高 的 程序 。 大 家 一 致 认为 如 果 能 够 使 用 char 定 义 的 变量 ， 就 不 要 使 用 int 定 义 的 变量 ; 能 够 使 用 int 定 义 的 变量 ， 就 不 要 用 long 变 量 来 定义 ; 能 不 使 用 浮 点 型 变量 就 不 要 使 用 浮 点 型 
变量 。 当 然 ， 在 定义 变量 后 不 要 让 变量 超过 其 作用 范围 ， 如 果 超 过 变量 的 范围 赋值 ，C 语 言 编译 器 并 不 会 报错 ， 但 程序 的 运行 结果 却 错 了 ， 而 且 这 样 的 错误 很 难 发 现 。 


如 果 基 于 可 移植 性 来 考虑 ， 要 是 机 器 使 用 的 是 32 位 int， 那 么 也 可 以 使 用 32 位 long， 因 为 这 两 者 产生 的 代码 即使 不 相同 也 很 相似 ， 所 以 我 们 可 以 使 用 ong。 用 户 即便 担心 在 将 来 必须 支持 的 机 器 上 使 用 
long 可 能 会 效率 低 一 些 ， 那 也 应 该 坚持 使 用 可 移植 类 型 。 


总 之 ， 不 论 怎样 ， 我 们 都 应 该 坚持 这 样 一 个 原则 : 那 就 是 尽量 使 用 严格 形式 定义 的 、 可 移植 的 数据 类 型 ， 尽 量 不 要 使 用 与 具体 硬件 或 软件 环境 关系 密切 的 变量 。 


建议 6: 使 用 typedef 来 定义 类 型 的 新 别名 


C 语 言 允许 用 户 使 用 typedef 关 键 字 来 定义 自己 习惯 的 数据 类 型 名 称 ， 来 蔡 代 系统 默认 的 基本 类 型 名 称 、 数 组 类 型 名 称 、 指 针 类 型 名 称 与 用 户 自 定义 的 结构 型 名 称 、 共 用 型 名 称 、 枚 举 型 名 称 等 。 一 旦 用 


户 在 程序 中 定义 了 自己 的 数据 类 型 名 称 ， 就 可 以 在 该 程序 中 用 自己 的 数据 类 型 名 称 来 定义 变量 的 类 型 、 数 组 的 类 型 、 指 针 变量 的 类 型 与 函数 的 类 型 等 。 


例如 ，( 语 言 在 C99 之 前 并 未 提供 布尔 类 型 ， 但 我 们 可 以 使 用 typedef 关 键 字 来 定义 一 个 简单 的 布尔 类 型 ， 如 下 面 的 代码 所 示 : 


typedef int BOOL; 
#define TRUE 1 
#define FALSE 0 


定义 好 之 后 ， 就 可 以 像 使 用 基本 类 型 数据 一 样 使 用 它 了 ， 如 下 面 的 代码 所 示 : 


BOOL bflag=TRUE; 


建议 6-1: 掌握 typedef 的 4 种 应 用 形式 


在 实际 使 用 中 ，typedef 的 应 用 主要 有 如 下 4 种 形式 。 


1. 为 基本 数据 类 型 定义 新 的 类 型 名 


也 就 是 说 ， 系 统 默 认 的 所 有 基本 类 型 都 可 以 利用 typedef 关 键 字 来 重新 定义 类 型 名 ， 示 例 代码 如 下 所 示 : 


typedef unsigned int COUNT; 


而 且 ， 我 们 还 可 以 使 用 这 种 方法 来 定义 与 平台 无 关 的 类 型 。 比 如 ， 要 定义 一 个 叫 REAL 的 浮 点 类 型 ， 在 目标 平台 一 上 ， 让 它 表 示 最 高 精度 的 类 型 ， 即 : 


typedef long double REAL; 


在 不 支持 long double 的 平台 二 上 ， 改 为 : 


typedef double REAL; 


甚至 还 可 以 在 连 double 都 不 支持 的 平台 三 上 ， 改 为 : 


typedef float REAL; 


这 样 ， 当 跨 平 台 移 植 程序 时 ， 我 们 只 需要 修改 一 下 typedef 的 定义 即 可 ， 而 不 用 对 其 他 源 代码 做 任何 修改 。 其 实 ， 标 准 库 中 广泛 地 使 用 了 这 个 技巧 ， 比 如 size_t 在 VC+ +2010 的 crtdefs.h 文 件 中 的 定义 如 
下 所 示 : 


#ifndef SIZE T DEFINED 

#ifdef WIN64 

typedef unsigned _int64 size t; 
#else 

typedef W64 unsigned int size t; 
#endif 
#define SIZE T DEFINED 

#endif 


2 .为 自 定 义 数 据 类 型 (结构 体 、 共 用 体 和 枚 举 类 型 ) 定义 简洁 的 类 型 名 称 


以 结构 体 为 例 ， 下 面 我 们 定义 一 个 名 为 Point 的 结构 体 : 


struct Point 
{ 
double x; 
double y; 
double 2z; 
i 


在 调用 这 个 结构 体 时 ， 我 们 必须 像 下 面 的 代码 这 样 来 调用 这 个 结构 体 : 


struct Point oPoint1l={100, 100, 0}; 
struct Point oPoint2; 


在 这 里 ， 结 构 体 struct Point 为 新 的 数据 类 型 ， 在 定义 变量 的 时 候 均 要 向 上 面 的 调用 方法 一 样 有 保留 字 struct， 而 不 能 像 int 和 double 那 样 直接 使 用 Point 来 定义 变量 。 现 在 ， 我 们 利用 typedef 定 义 这 个 
结构 体 ， 如 下 面 的 代码 所 示 : 


typedef struct tagPoint 


double x; 

gdouble y; 

double z; 
} Point; 


在 上 面 的 代码 中 ， 实 际 上 完成 了 两 个 操作 : 


“ 定义 了 一 个 新 的 结构 类 型 ， 代 码 如 下 所 示 : 


struct tagPoint 


double x; 

double y; 

double z; 
Es 


其 中 ，struct 关 键 字 和 tagPoint 一 起 构成 了 这 个 结构 类 型 ， 无 论 是 否 存在 typedef 关 键 字 ， 这 个 结构 都 存在 。 


“ 使 用 typedef 为 这 个 新 的 结构 起 了 一 个 别名 ， 叫 Point， 即 : 


typedef struct tagPoint Point 


因此 ， 现 在 你 就 可 以 像 int 和 double 那 样 直接 使 用 Point 定 义 变量 ， 如 下 | 


的 代码 所 示 : 


Point oPoint1l={100, 100, 0}; 
Point oPoint2; 


为 了 加 深 对 typedef 的 理解 ， 我 们 再 来 看 一 个 结构 体例 子 ， 如 下 面 的 代码 所 示 : 


typedef struct tagNode 
{ 


char *pItem; 
PNode pNext; 
} *pNode; 


从 表面 上 看 ， 上 面 的 示例 代码 与 前 面 的 定义 方法 相同 ， 所 以 应 该 没有 什么 问题 。 但 是 编译 器 却 报 了 一 个 错误 ， 为 什么 呢 ? 莫非 C 语 言 不 允许 在 结构 中 包含 指向 它 自己 的 指针 ? 


题 还 是 在 于 typedef 的 应 用 。 


其 实 问题 并 非 在 于 struct 定 义 的 本 身 ， 大 家 应 该 都 知道 ，C 语 言 是 允许 在 结构 中 包含 指向 它 自己 的 指针 的 ， 我 们 可 以 在 建立 链表 等 数据 结构 的 实现 上 看 到 很 多 这 类 例子 。 那 问题 在 哪里 呢 ? 其实， 根本 问 


在 上 面 的 代码 中 ， 新 结构 建立 的 过 程 中 遇 到 了 pNext 声 明 ， 其 类 型 是 pPNode。 这 里 要 特别 注意 的 是 ，pNode 表 示 的 是 该 结构 体 的 新 别名 。 于 是 问题 出 现 了 ， 在 结构 体 类 型 本 身 还 没有 建立 完成 的 时 候 ， 


编译 器 根本 就 不 认识 PNode， 


typedef struct tagNode 
{ 

char *pItem; 

struct tagNode *pNext; 
} *pNode; 


或 者 将 struct 与 typedef 分 开 定义 ， 如 下 面 的 代码 所 示 : 


为 这 个 结构 体 类 型 的 新 别名 还 不 存在 ， 所 以 


然 就 会 报错 。 因 此 ， 我 们 要 做 一 些 适 当 的 调整 ， 比 如 将 结构 体 中 的 pNext 声 明 修 改 成 如 下 方式 : 


typedef struct tagNode *pNode; 
struct tagNode 
{ 
char *pItem; 
PNode pNext; 
}; 


在 上 面 的 代码 中 ， 我 们 同样 使 用 typedef 给 一 个 还 未 完全 声明 的 类 型 tagNode 起 了 一 个 新 别名 。 不 过 ， 虽 然 C 语 言 编译 器 完全 支持 这 种 做 法 ， 但 不 推荐 这 样 做 。 建 议 还 是 使 用 如 下 规范 定义 方法 : 


struct tagNode 
{ 
Char *pItem; 
struct tagNode *pNext; 


}; 
typedef struct tagNode *pNode; 


3 .为 数组 定义 简洁 的 类 型 名 称 


它 的 定义 方法 很 简单 ， 与 为 基本 数据 类 型 定义 新 的 别名 方法 一 样 ， 示 例 代码 如 下 所 示 : 


typedef int INT ARRAY 100[100]; 
INT ARRAY 100 arr; 


4 .为 指针 定义 简洁 的 名 称 


对 于 指针 ， 我 们 同样 可 以 使 用 下 面 的 方式 来 定义 一 个 新 的 别名 


typedef char* PCHAR; 
PCHAR pa; 


对 于 上 面 这 种 简单 的 变量 声明 ， 使 用 typedef 来 定义 一 个 新 的 别名 或 许 会 感觉 意义 不 大 ， 但 在 比较 复杂 的 变量 声明 中 ，typedef 的 优势 马上 就 体现 出 来 了 ， 如 下 面 的 示例 代码 所 示 : 


int * (xalS])y 《int char*) ; 


对 于 上 面 变量 的 声明 ， 如 果 我 们 使 用 typdef 来 给 它 定义 一 个 别名 ， 这 会 非常 有 意义 ， 如 下 面 的 代码 所 示 : 


// PFun 是 我 们 创建 的 一 个 类 型 别名 


typedef int * (*PFun) (int, char*) ; 


// 使 用 定义 的 新 类 型 来 声明 对 象 ， 等 价 于 int* (*a[5]) (int， charx) ; 


PFun a[5]; 


建议 6-2: 小 心 使 用 typedef 带 来 的 陷阱 


接 下 来 看 一 个 简单 的 typedef 使 用 示例 ， 如 下 面 的 代码 所 示 : 


typedef char* PCHAR; 


int strcmp (const PCHAR, const PCHAR) ; 


在 上 面 的 代码 中 ， 


“const PCHAR” 是 否 相 当 于 “const char*” 呢 ? 


答案 是 否定 的 ， 原 因 很 简单 ，typedef 是 用 来 定义 一 种 类 型 的 新 别名 的 ， 它 不 同 于 宏 ， 不 是 简单 的 字符 串 替 换 。 因 
针 “char*const (一 个 指向 char 的 常量 指针 ) ”。 即 它 实际 上 相当 于 “char*const”， 而 不 是 “const char* (指向 常量 char 的 指针 ) ”。 当 然 ， 要 想 让 const PCHAR 相 当 于 const char* 也 很 容易 ， 如 下 面 


的 代码 所 示 : 


此 ， 


“const PCHAR” 中 的 const 给 予 了 整个 指针 本 身 常量 性 ， 也 就 是 形成 了 常量 指 


typedef const char* PCHAR; 


int strcmp (PCHAR, 


PCHAR) ; 


还 需要 特 另 
的 : 


其 实 ， 无论 什么 时 候 ， 


器 
里 


I 注意 的 是 ， 


然 typedef 并 不 真正 影响 对 象 的 存储 特性 ， 但 在 语法 上 它 还 是 一 个 存储 类 的 关键 字 ， 就 像 auto、extern、static 和 register 等 关键 字 一 样 。 因 


只 要 为 指针 声明 typedef， 那 么 就 应 该 在 最 终 的 typedef 名 称 中 加 一 个 const， 以 使 得 该 指针 本 身 是 常量 。 


这 种 声明 方式 是 不 可 行 


此 ， 像 下 面 


typedef static int INT_STRATIC; 


不 可 行 的 原 
VC++2010 中 的 


因 是 不 能 声明 多 个 存储 类 关键 字 ， 由 于 typedef 已 经 占据 了 存储 类 关键 字 的 位 置 ， 因 
报错 信息 为 “无 法 指定 多 个 存储 类 ”。 


建议 6-3: typedef 不 同 于 #define 


前 面 已 经 特别 强调 过 ，typedef 是 上 
是 语言 编译 过 程 的 一 部 分 ， 但 它 并 不 实 


而 #define 
已 被 


译 


展开 的 源 程序 时 才 会 发 现 可 能 | 


只 是 简单 的 字符 串 替 换 ( 


接 下 来 看 下 面 的 示例 代码 : 


来 定义 一 种 类 型 的 新 别名 的 ， 它 不 同 于 宏 (#define) ， 不 是 简单 的 字符 串 蔡 换 。 它 的 新 名 字 : 
际 分 配 内 存 空间 。 


原 地 扩 


展 ) ， 它 本 身 并 不 在 编译 过 程 中 进行 ， 
9 错误 并 报错 。 


此 ， 在 typedef 声 明 中 就 不 能 够 再 使 


static 或 任何 其 他 存储 类 关键 字 了 。 当 然 ， 编 译 器 也 会 报错 ， 如 在 


而 是 在 这 之 前 ( 预 处 理 过 程 ) 就 已 经 


有 一 定 的 封装 性 ， 所 以 新 命名 的 标识 符 具 有 更 易 定义 变量 的 功能 ， 它 


完成 了 。 因 此 ， 它 不 会 做 正确 性 检查 ， 不 管 含义 是 否 正确 它 照 样 会 带 入 ， 只 有 在 编 


typedef char * PCHRAR1; 


#define PCHAR2 char * 


/* cl、c2 都 为 char *，typedef 为 char * 引 入 了 一 个 新 的 别名 */ 


PCHAR1 c1， 


/* 相 当 于 char * c3， 


PCHAR2 c3， 


在 定义 上 述 的 变量 时 ，c1、c2 与 c3 按 照 预 期 都 被 定义 成 char* 类 型 。 值 得 注意 的 是 ，c4 却 被 定义 成 char 类 型 ， 而 不 是 我 们 所 预期 的 char*。 


v2 
C4; c3 是 char 
C4; 


则 是 为 一 个 类 型 引入 一 个 新 的 别名 。 


建议 7: 变量 声明 应 该 力求 


对 于 “变量 ”这 


运行 过 程 中 可 以 修改 。 例 如 : 


**， 而 C4 是 char 


As 、 士 
| 国 ) 五 


个 词语 ， 相 信 大 家 再 熟悉 不 过 了 ， 任 何 一 种 编程 语言 都 离 不 开 变量 。 


Ry 


根本 原因 


就 在 于 #define 只 是 简单 的 字符 串 替 换 ， 而 typedef 


和 人 


变量 是 在 内 存 或 寄存 器 中 


一 个 标识 


名 的 存储 单元 ， 可 以 用 来 存储 一 个 特定 类 型 的 数据 ， 并 且 数 据 的 值 在 程序 


jap 


nb 


上 面 这 个 语句 定义 了 一 个 int 类 型 的 变量 |， 即 它 要 求 系统 在 内 存 中 分 配 一 个 类 型 为 int 型 的 存储 空间 。 因 


1243012 


在 32 位 计算 机 系统 中 ，in 记 


名 实质 是 内 存 和 


1243013 


型 变量 占 


图 


4 个 字 节 ( 即 


元 地 址 的 一 个 符号 ， 比 放 


0， 变 量 ; 就 代表 着 内 


1245014 12453013 1 


图 1-38 变量 (inti) 的 存储 


此 ,执行 语句 “ 


int ij” 后 ， 内 存 中 的 映像 可 能 会 如 


245016 1243017 


1-38 所 示 。 


1243018 


1-38 中 编号 为 1245012~ 1245015 的 4 个 存储 单元 ) 。 当 然 ， 你 也 可 以 使 


存 地 址 1245012， 即 变量 所 占 内 存单 元 的 首 地 址 。 


由 此 可 见 ， 变 量 首 先是 一 个 标识 符 或 名 称 ， 就 像 一 个 客 


符合 大 多 数 人 的 习惯 ， 基 本 可 以 望 名 知 义 ， 这 就 会 便于 交流 和 维护 ; 其 次 ， 变 量 是 唯一 确定 的 对 应 内 存 若 了 


房 的 编号 一 样 ， 有 了 这 个 编号 我 们 在 交流 中 就 可 以 方便 表达 ， 否 则 ， 我 们 只 可 意 会 ， 那 多 不 方便 。 为 了 方便 ， 我 们 在 
FF 存储 单元 或 者 某 个 寄存 器 的 。 当 


变量 
变量 


语句 “sizeof (i) ”得 到 存储 字 节 。 同 时 ， 还 可 以 从 


1-38 中 看 出 ， 


亦 量 全 


给 变量 命 


=] 


名 时 ， 首 先 ， 
本 质 是 访问 该 变量 所 对 应 的 内 存 自 


元 。 


户 使 


变量 时 ， 其 


一 旦 定义 了 变量 ， 那 么 变量 就 至 少 需要 为 我 们 提供 两 个 信息 : 一 是 变量 的 地 址 ， 即 操作 系统 为 变量 在 内 存 中 分 配 的 若干 内 存 的 首 地 址 ; 二 是 变量 的 值 ， 即 变量 在 内 存 中 所 分 配 的 那些 内 存单 元 中 所 存放 
的 数据 。 
此 ， 我 们 至 少 还 需要 给 上 面 的 变量 左上 一 个 初 值 ， 如 下 面 的 代码 所 示 : 
i=100; 


上 面 的 语句 “i=100” 表 示 将 整 型 常量 100 保 存 到 i 中 ， 实 质 上 是 将 100 保 存 到 内 存 中 以 1245012 为 起 始 地 址 的 4 个 存储 单元 ( 即 1245012~1245015) 。 因 


1-39 所 示 。 


行 语 


句 “i=100” 后 ， 可 想象 内 存 映像 如 


此 , 执 


1245012 1245013 1245014 1245015S 1245016 1245017 1245018 
1 一 > 
图 1-39 在 内 存 中 存 入 数据 (inti=100) 


建议 7-1: 尽量 不 要 在 一 个 声明 中 声明 超过 一 个 的 变量 


变量 声明 应 该 力求 简洁 明了 ， 每 一 行 应 该 只 声明 一 个 变量 ， 不 要 把 多 个 变量 的 声明 或 初始 化 放 在 同一 行 中 。 尽 管 这 样 的 声明 方式 是 C 语 言 所 允许 的 ， 但 我 们 还 是 建议 你 不 要 这 样 做 。 来 看 下 面 的 代码 : 


入 二 于 全 5 
int i3=0, i4=1; 


很 显然 ， 上 面 的 这 种 变量 声明 方式 虽然 节省 了 行 数 ， 但 却 也 失去 了 简洁 性 。 所 以 ， 建 议 使 用 下 面 的 这 种 声明 方式 : 


rk Ds 
int 42 
int i3=0; 
int i4=]; 


上 面 的 变量 声明 示例 或 许 会 让 部 分 读者 不 以 为 然 ， 但 如 果 遇 到 下 面 这 种 变量 声明 方式 ， 估 计 会 令 人 混 清 不 清 。 


chars pl D2 
char *p3, p4; 


因此 ， 我 们 应 该 避免 这 种 声明 方法 。 


除 此 之 外 ， 建 议 尽 可 能 在 声明 变量 的 同时 初始 化 该 变量 。 如 果 变量 的 引用 处 和 其 定义 处 相隔 比较 远 ， 变 量 的 初始 化 就 很 容易 被 忘记 ， 而 要 是 引用 了 未 被 初始 化 的 变量 ， 很 可 能 会 导致 程序 错误 的 。 初 始 
化 示例 代码 如 下 所 示 : 


int width = 10; 
int height = 10; 
int depth = 10; 


建议 7-2: 避免 在 柑 套 的 代码 块 之 间 使 用 相同 的 变量 名 


局 部 变量 都 不 应 该 与 这 个 全 局 变 


by 
长 


当 一 个 作用 域 谋 套 在 另 一 个 作用 域内 部 时 ， 我 们 应 该 避免 在 这 两 个 作用 域 中 使 用 相同 的 变量 名 称 。 例 如 ， 如 果 某 些 局 部 变量 位 于 一 个 全 局 变量 的 子 作用 域 中 ， 那 
量 同名 。 


例如 下 面 的 示例 代码 : 


int height = 100; 

double mtocm ( double value ) 

{ 
double height=0; 
height=value*height; 
return height; 

} 


在 上 面 的 代码 中 ， 首 先 声明 了 一 个 int 类 型 的 全 局 变量 height， 同 时 又 在 mtocm 函 数 里 声明 了 一 个 与 全 局 变量 名 称 相同 的 double 类 型 的 局 部 变量 height。 最 后 ,我 们 希望 将 value*height (全 局 变量 ) 
的 值 赋 给 double 类 型 的 局 部 变量 height， 并 返回 。 


当 执 行 “mtocm (1.78) ”语句 有 时， 问题 发 生 了 。 因 为 虽然 C 语 言 允许 在 同一 源 文件 中 全 局 变量 和 局 部 变量 同名 ,但 在 局 部 变量 的 作用 域内 ， 全 局 变量 将 不 起 任何 作用 。 所 以 ， 执 行 语 
名 “mtocm (1.78) ”返回 的 结果 将 会 是 9。 因此 ， 我 们 必须 将 全 局 变量 名 称 与 局 部 变量 名 称 区 分 开 ， 如 下 面 的 代码 所 示 : 


int g height = 100; 

double mtocm ( double value ) 

{ 
double height=0; 
height=value*g height; 
return height; 

Ek 


现在 ， 再 执行 语句 “mtocm (1.78) ”时 ， 它 将 返回 正确 的 结果 。 


除 此 之 外 ， 如 果 一 个 代码 块 位 于 其 他 代码 块 的 内 部 ， 同 样 不 应 该 在 此 代码 块 中 声明 与 外 层 代 码 块 中 的 任何 变量 具有 相同 名 称 的 变量 。 


建议 8: 正确 地 选择 变量 的 存储 类 型 


在 计算 机 中 ， 保 存 变 量 当前 值 的 存储 单元 有 两 类 : 一 类 是 内 存 ， 另 一 类 是 CPU 的 寄存 器 。 变 量 的 存储 类 型 关系 到 变量 的 存储 位 置 ， 在 C 语 言 中 ， 为 变量 提供 了 4 种 存储 类 型 : auto (自动 ) 型 、 
static (静态 ) 型 、register (寄存 器 ) 型 和 extern (外 部 ) 型 。 它 们 关系 到 变量 在 内 存 中 的 存放 位 置 ， 由 此 决定 了 变量 的 保留 时 间 和 变量 的 作用 范围 。 


变量 的 保留 时 间 又 称 为 生存 期 ， 从 时 间 的 角度 来 看 ， 可 将 变量 分 为 静态 存储 和 动态 存储 两 种 情况 。 静 态 存储 是 指 变量 存储 在 内 存 的 静态 存储 区 中 ， 在 编译 时 就 为 它 分 配 了 存储 空间 ， 在 整个 程序 的 运行 
期 间 ， 该 变量 占有 固定 的 存储 单元 ， 程 序 执行 结束 后 ， 这 部 分 空间 才 会 释放 ， 变 量 的 值 在 整个 程序 中 始终 存在 ; 动态 存储 是 指 变 量 存储 在 内 存 的 动态 存储 区 中 ， 在 程序 的 运行 过 程 中 ， 只 有 当 变 量 所 在 的 函 
数 被 调用 时 ， 编 译 系统 才 临 时 为 该 变量 分 配 一 段 内 存单 元 ， 函 数 调用 结束 时 ， 该 变量 空间 就 会 释放 ， 变 量 的 值 只 在 函数 调用 期 存在 。 


变量 的 作用 范围 又 称 为 作用 域 ， 从 空间 角度 来 看 ， 可 以 将 变量 分 为 局 部 变量 和 全 局 变量 。 局 部 变量 是 在 一 个 函数 或 复合 语句 内 定义 的 变量 ， 它 仅 在 函数 或 复合 语句 内 有 效 ， 编 译 时 ， 编 译 系统 不 为 局 部 
变量 分 配 内 存单 元 ， 而 是 在 程序 运行 过 程 中 ， 当 局 部 变量 所 在 的 函数 被 调用 时 ， 编 译 系统 才 会 根据 需要 临时 分 配 内 存 ， 调 用 结束 后 ， 释 放空 间 ; 全 局 变量 是 在 函数 之 外 定义 的 变量 ， 其 作用 范围 为 从 定义 处 
开始 到 本 文件 结束 ， 编 译 时 ， 编 译 系统 会 为 其 分 配 固定 的 内 存单 元 ， 在 程序 运行 的 自始至终 它 都 占用 着 固定 的 单元 。 


建议 8-1: 定义 局 部 变量 时 应 该 省 略 auto 关 键 字 


在 默认 情况 下 ， 所 有 的 局 部 变量 都 是 auto 型 的 变量 (也 称 为 自动 变量 ) ， 而 且 会 为 这 些 变量 动态 分 配 存 储 空间 ， 数 据 则 存储 在 动态 存储 区 中 。 因 此 ， 它 的 生存 期 比较 短暂 : 当 调用 函数 时 ， 系 统 为 该 函 
数 的 自动 变量 分 配 内 存 ， 等 程序 从 该 函数 返回 ， 即 调用 过 程 结 束 时 ， 系 统 就 会 释放 所 有 该 函数 的 自动 变量 。 这 个 过 程 是 通过 一 个 堆栈 机 制 实现 的 ， 为 自动 变量 分 配 内 存 就 压 栈 ， 当 函数 返回 时 则 退 栈 。 


回 


需要 说 明 的 是 ， 既 然 自动 变量 就 是 指 在 函数 内 部 定义 使 用 的 变量 (局 部 变量 ) ， 那 么 也 就 只 多 许 在 定义 它 的 函数 内 部 使 用 它 ， 在 函数 外 的 其 他 任何 地 方 都 不 能 使 用 该 变量 。 当 然 ， 这 也 充分 说 明 自 动 变 
量 没有 链接 性 ， 因 为 它 不 允许 其 他 的 文件 进行 访问 。 因 此 ， 这 也 就 允许 我 们 在 这 个 函数 以 外 的 其 他 任何 地 方 或 其 他 的 函数 内 部 定义 同名 的 变量 ， 并 且 它 们 之 间 不 会 发 生 任何 冲突 。 虽 然 这 种 变量 的 命名 方式 
不 是 我 们 所 推荐 的 ， 但 却 是 C 语 言 所 允许 的 。 


来 看 一 个 自动 变量 的 定义 示例 : 


int main (void) 


{ 

/* 定 义 整 型 变量 Xx 为 自动 变量 */ 

auto int x=0; 

/* 定 义 整 型 变量 y， 缺 省 存储 类 型 时 为 自动 变量 */ 

int y=0; 
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} 


在 上 面 的 代码 中 ， 默 认 情况 下 ， 所 有 的 局 部 变量 都 是 自动 变量 ， 所 以 说 变量 x 与 变量 y 一 样 ， 都 是 自动 变量 。 因 此 ， 我 们 在 声明 局 部 变量 时 ， 应 该 省 略 auto 关 键 字 。 


建议 8-2: 慎 用 extern 声 明 外 部 变量 


半 


串 


我 们 都 知道 ， 程 序 的 编译 单位 是 源 程序 文件 ， 一 个 源 文件 可 以 包含 一 个 或 若干 个 函数 。 在 函数 内 定义 的 变量 是 局 部 变量 ， 而 在 函数 之 外 定义 的 变量 则 称 为 外 部 变量 ， 外 部 变量 也 就 是 我 们 所 讲 的 全 
。 它 的 存储 方式 为 静态 存储 ， 其 生存 周期 为 整个 程序 的 生存 周期 。 全 局 变量 可 以 为 本 文件 中 的 其 他 函数 所 共用 ， 它 的 有 效 范 围 为 从 定义 变量 的 位 置 开始 到 本 源 文件 结束 。 


名 


即 


然而 ， 如 果 全 局 变量 不 在 文件 的 开头 定义 ， 有 效 的 作用 范围 将 只 限于 其 定义 处 到 文件 结束 。 如 果 在 定义 点 之 前 的 函数 想 引 用 该 全 局 变量 ， 则 应 该 在 引用 之 前 用 关键 字 extern 对 该 变量 作 “ 外 部 变量 声 
明 ”， 表 示 该 变量 是 一 个 已 经 定义 的 外 部 变量 。 有 了 此 声明 ， 就 可 以 从 “声明 ”处 起 ， 合 法 地 使 用 该 外 部 变量 。 


来 看 一 个 简单 的 例子 ， 如 代码 清单 1-25 所 示 。 


代码 清单 1-25 ”extern 使 用 示例 


#include <stdio.h> 
int max (int x, int y) 3 
int main (void) 
{ 
int result; 
/* 外 部 变量 声明 */ 
extern int g XI 
extern int g Y; 
result = max (g X, g Y) ; 
printf ("the max Value is %d\n", result) ; 
return 0; 


} 
/* 定 义 两 个 全 局 变量 */ 
int g xX = 10; 
int g Y = 20; 
int max (int x, int y) 
{ 
return (x>y? x: y); 


} 


在 代码 清单 1-25 中 ， 全 局 变量 g_X 与 9_ Y 是 在 main 函 数 之 后 声明 的 ， 因 此 它 的 作用 范围 不 在 main 函 数 中 。 如 果 我 们 需要 在 main 函 数 中 调用 它们 ， 就 必须 使 用 extern 来 对 变量 g_X 与 9_ Y 作 “外 部 变量 声 
明 ”， 以 扩展 全 局 变量 的 作用 域 。 也 就 是 说 ， 如 果 在 变量 定义 之 前 要 使 用 该 变量 ， 则 应 在 使 用 之 前 加 extern 声 明 变量 ， 使 作用 域 扩展 到 从 声明 开始 到 本 文件 结束 。 


如 果 整 个 工程 由 多 个 源 文件 组 成 ， 在 一 个 源 文件 中 想 引用 另外 一 个 源 文 件 中 已 经 定义 的 外 部 变量 ， 同 样 只 需 在 引用 变量 的 文件 中 用 extern 关 键 字 加 以 声明 即 可 。 下 面 就 来 看 一 个 多 文件 的 示例 ， 如 代码 
清单 1-26-max 与 代码 清单 1-26-main 所 示 。 


代码 清单 1-26-max 1-26-max.c 


#include <stdio.h> 
/* 外 部 变量 声明 */ 
extern int g XxX; 
extern int g YY; 
int max () 
{ 
return (gxX>gY? gx: gyY); 
} 


代码 清单 1-26-main 1-26-main.c 


#include <stdio.h> 
/* 定 义 两 个 全 局 变量 */ 
int g X=10; 


int g Y=20; 
int max () ; 
int main (void) 
int result; 
result = max () ; 
printf ("the max Value is %d\n", result) ; 
return 0; 


代码 清单 1-26-max 与 代码 清单 1-26-main 的 运行 结果 如 图 1-40 所 示 。 


c Fisual Studio Comnand Proapt (2010) 
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图 1-40 代码 清单 1-26-max 与 代码 清单 1-26-main 的 运行 结果 


对 于 多 个 文件 的 工程 ， 都 可 以 采用 上 面 这 种 方法 来 操作 。 对 于 模块 化 的 程序 文件 ， 可 在 其 文件 中 预先 留 好 外 部 变量 的 接口 ， 也 就 是 只 采用 extern 声 明 变量 ， 而 不 定义 变量 ， 代 码 清单 1-26-max 里 的 9 X 
与 9_Y 就 是 如 此 操作 的 。 通 常 ， 这 些 外 部 变量 的 接口 都 是 在 模块 程序 的 头 文件 中 声明 的 ， 当 需要 使 用 该 模块 时 ， 只 需要 在 使 用 时 具体 定义 一 下 这 些 外 部 变量 即 可 。 代 码 清单 1-26-main 里 的 9_X 与 9_Y 则 是 相 


关 示例 。 


不 过 ， 需 要 特别 注意 的 是 ， 由 于 用 extern 引 用 外 部 变量 ， 可 以 在 引用 的 模块 内 修改 其 变量 的 值 ， 因 此 ， 如 果 有 多 个 文件 同时 要 对 应 用 的 变量 进行 操作 ， 而 且 可 能 会 修改 该 变量 ， 那 就 会 影响 其 他 模块 的 
使 用 。 因 此 ， 我 们 要 慎重 使 用 。 


在 C 语 言 中 ，static 关 键 字 不 仅 可 以 用 来 修饰 变量 ， 还 可 以 用 来 修饰 函数 。 在 使 用 static 关 键 字 修饰 变量 时 ， 我 们 称 此 变量 为 静态 变量 。 静 态 变量 的 存储 方式 与 全 局 变量 一 样 ， 都 是 静态 存储 方式 。 但 这 
里 需要 特别 说 明 的 是 ， 静 态 变量 属于 静态 存储 方式 ， 属 于 静态 存储 方式 的 变量 却 不 一 定 就 是 静态 变量 。 例 如 ， 全 局 变量 虽然 属于 静态 存储 方式 ， 但 并 不 是 静态 变量 ， 它 必须 由 static 加 以 定义 后 才能 成 为 静态 


全 局 变量 。 


考虑 到 可 能 会 有 不 少 读者 对 静态 变量 作用 不 太 清楚 ， 本 节 就 来 详细 讨论 一 下 它 的 主要 作用 。 


上 面 已 经 阐述 过 ， 全 局 变量 虽然 属于 静态 存储 方式 ， 但 并 不 是 静态 变量 。 全 局 变量 的 作用 域 是 整个 源 程序 ， 当 一 个 源 程序 由 多 个 源 文件 组 成 时 ， 全 局 变量 在 各 个 源 文件 中 都 是 有 效 的 ， 比 如 上 面 代码 清 


单 1-26-main 中 的 全 局 变量 g_X 与 g_Y 就 是 如 此 。 


如 果 我 们 希望 全 局 变量 仅 限于 在 本 源 文件 中 使 用 ， 在 其 他 源 文件 中 不 能 引用 ， 也 就 是 说 限制 其 作用 域 只 在 定义 该 变量 的 源 文 件 内 有 效 ， 而 在 同一 源 程序 的 其 他 源 文 件 中 不 能 使 用 。 这 时 ， 就 可 以 通过 在 


局 变量 


局 变量 之 前 加 上 关键 字 static 来 实现 ， 即 使 全 局 变量 被 定义 成 为 一 个 静态 全 局 变量 。 下 面 将 代码 清单 1-26-main 中 的 全 局 变量 g_X 与 9_Y 全 部 修改 为 静态 全 局 变量 ， 代 码 如 下 所 示 : 


#include <stdio.h> 

/* 定 义 两 个 静态 全 局 变量 */ 

static int g X=10; 

static int g Y=20; 

int max () ; 

int main (void) 

{ 
int result; 
result = max () ; 
printf ("the max value is %d\n", result) ; 
return 0; 


这 时 候 ， 我 们 再 来 编译 该 程序 ， 代 码 清单 1-26-max 将 无 法 调用 代码 清单 1-26-main 中 的 静态 全 局 变量 g_X 与 9_Y。 也 就 是 说 静态 全 局 变量 g_X 与 9_Y 只 能 在 代码 清单 1-26-main 中 使 用 ， 如 图 1-41 所 示 。 


结 


亦 : 
全 


数 时 就 不 再 重新 赋 初 值 ， 而 是 保留 上 次 函数 调用 结束 时 的 值 。 这 样 ，count () 函数 每 次 被 调用 的 时 候 ， 静 态 局 部 变量 num 就 会 保持 上 一 次 调用 的 值 ， 然 后 再 执行 自 增 运算 ， 这 样 就 实现 了 计数 功能 。 同 
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图 1-41 代码 清单 1-26-main 将 g X 与 9 Y 定 义 为 静态 全 局 变量 的 运行 结果 


在 图 1-41 中 ， 虽 然 9_X 与 9_Y 变 量 仍然 是 全 局 的 ， 但 由 于 静态 全 局 变量 的 作用 域 局 限于 一 个 源 文 件 内 ， 所 以 只 能 为 该 源 文 件 内 的 函数 所 共用 ， 这 样 就 可 以 避免 在 其 他 源 文 件 中 引起 的 错误 。 也 就 起 到 了 对 


其 他 源 文件 进行 隐藏 与 隔离 错误 的 作用 ， 有 利于 模块 化 程序 设计 。 


有 时 候 ， 我 们 希望 函数 中 局 部 变量 的 值 在 函数 调用 结束 之 后 不 会 消失 ， 而 仍然 保留 其 原 值 。 即 它 所 占用 的 存储 单元 不 释放 ， 在 下 一 次 调用 该 函数 时 ， 其 局 部 变量 的 值 仍然 存在 ， 也 就 是 上 一 次 函数 调 


束 时 的 值 。 这 时 候 ， 我 们 就 应 该 将 该 局 部 变量 用 关键 字 static 声 明 为 “静态 局 部 变量 ”。 

当 将 局 部 变量 声明 为 静态 局 部 变量 的 时 候 ， 也 就 改变 了 局 部 变量 的 存储 位 置 ， 即 从 原来 的 栈 中 存放 改 为 静态 存储 区 存放 。 这 让 它 看 起 来 很 像 全 局 变量 ， 其 实 静态 局 部 变量 与 全 局 变量 的 主要 区 别 就 在 于 
见 性 ， 静 态 局 部 变量 只 在 其 被 声明 的 代码 块 中 是 可 见 的 。 

对 某 些 必须 在 调用 之 间 保 持 局 部 变量 的 值 的 子 程序 而 言 ， 静 态 局 部 变量 是 特别 重要 的 。 如 果 没 有 静态 局 部 变量 ， 则 必须 在 这 类 函数 中 使 用 全 局 变量 ， 由 此 也 就 打开 了 引入 副作用 的 大 门 。 使 用 静态 局 部 
量 最 好 的 示例 就 是 实现 统计 次 数 的 功能 ， 如 代码 清单 1-27 所 示 。 

代码 清单 1-27 静态 局 部 变量 使 用 示例 


#include <stdio.h> 

void count () ; 

int main (void) 

{ 
int i=0; 
for (i=0; i <= 5; i++) 
{ 


count () ; 


return 0; 
} 


void count () 


/* 声 明 一 个 静态 局 部 变量 */ 
static num = 0; 

Numt++; 

Printf ("%d\n", num) ; 


加 


在 代码 清单 1-27 中 ， 我 们 通过 在 count () 函数 里 声明 一 个 静态 局 部 变量 num 来 作为 计数 器 。 因 为 静态 局 部 变量 是 在 编译 时 赋 初 值 的 ， 且 只 赋 初 值 一 次 ， 在 程序 运行 时 它 已 有 初 值 。 以 后 在 每 次 调 


时 ， 它 又 避免 了 使 用 全 局 变量 。 


通过 上 面 的 示例 ， 我 们 可 以 得 出 静态 局 部 变量 一 般 的 使 用 场景 ， 如 下 所 示 : 


“ 需要 保留 函数 上 一 次 调用 结束 时 的 值 。 


“ 如果 初 始 化 后 ， 变 量 只 会 被 引用 而 不 会 改变 其 值 ， 则 这 时 用 静态 局 部 变量 比较 方便 ， 以 免 每 次 调用 时 重新 赋值 。 


在 静态 数据 区 ， 内 存 中 所 有 的 字 节 默认 值 都 是 0x00。 静 态 变 量 与 全 局 变量 也 一 样 ， 它 们 都 存储 在 静态 数据 区 中 ， 因 此 其 变量 的 值 默认 也 为 0。 演 示 示例 如 代码 清单 1-28 所 示 。 


代码 清单 1-28 ”默认 为 0 的 演示 示例 


#include <stdio.h> 

static int g x; 

int gy; 和 

int main (void) 

{ 
static int x; 
printf ("g x: %d\ng y: $d\nx: $d", g x, g_y, x) ; 
return 0; a 


} 


代码 清单 1-28 的 运行 结果 如 图 1-42 所 示 。 


建议 8-4: 尽量 少 使 用 register 变 量 


图 1-42 ”代码 清单 1-28 的 运行 


诺 


前 面 内 容 就 已 经 阐述 过 ， 计 算 机 中 保存 变量 当前 值 的 存储 


元 有 两 类 : 一 类 是 内 存 ， 另 一 类 是 CPU 的 寄存 器 ， 而 register 变 量 则 将 其 值 存储 到 CPU 的 寄存 器 中 。 通 常 ， 寄 存 器 变量 比 存储 于 内 存 的 变量 


访问 效率 更 高 。 但 是 ， 编 译 器 并 不 一 定 会 理 蛇 register 关 键 字 ， 如 果 有 太 多 的 变量 被 声明 为 register， 它 只 会 选取 前 几 个 实际 存储 于 寄存 器 中 ， 其 余 的 就 按 普通 变量 进行 处 理 。 如 果 一 个 编译 器 自己 具有 一 套 


寄存 器 优化 方法 ， 它 也 可 能 会 忽略 register 关 键 字 ， 其 依据 是 由 编译 器 决定 哪些 变量 存储 于 寄存 器 中 要 比 人 脑 决定 更 为 合理 一 些 。 


在 典型 情况 下 ， 通 常会 希望 把 使 用 频率 更 高 的 那些 变量 声明 为 寄存 器 变量 。 


在 有 些 计算 机 中 ， 如 果 把 指针 变量 声明 为 寄存 器 变量 ， 程 序 的 效率 将 能 得 到 提高 ， 尤 其 是 那些 频繁 执行 间接 访问 操作 的 指 


针 。 你 也 可 以 把 函数 的 形式 参数 声明 为 寄存 器 变量 ， 这 样 编译 器 会 在 函数 的 起 始 位 置 生成 指令 ， 然 后 把 这 些 值 从 内 存 复制 到 寡 存 器 中 。 但 是 ， 完 全 有 可 能 这 个 优化 措施 所 节省 的 时 间 和 空间 的 开销 还 抵 不 上 


复制 这 几 个 值 所 花 的 开销 。 


register 变 量 的 使 用 示例 如 代码 清单 1-29 所 示 。 


代码 清单 1-29 register 变量 的 使 用 示例 


#include <stdio.h> 
size 七 fac (size t n) ; 
int main (void) 
{ 
size t i; 
for (i=1; i<=5; i++) 
{ 
printf ("%d! = %d\n", i, fac (i) ); 
i 


return 0; 


size t fac (size t n) 
{ 
register size t result=1; 
register size t i=1; 
for (i=1; i<=n; i++) 
{ 
result=result*i; 
} 


return result; 


在 代码 清单 1-29 中 ， 我 们 在 fac 函 数 中 实现 了 阶乘 功能 。 


寄存 器 变量 的 创建 和 销毁 时 间 与 自动 变量 相同 ， 但 它 需 


因为 fac 函 数 中 的 变量 result 与 需要 在 for 循 环 中 反复 调用 ， 所 以 这 里 把 它们 定义 成 寄存 器 变量 。 其 运行 结果 如 


网 


1-43 所 示 。 


做 一 些 额外 的 工作 。 在 一 个 使 用 寄存 器 变量 的 函数 返回 之 前 ， 这 些 寄存 器 必须 恢复 先前 所 存储 的 值 ， 确 保 调 用 者 的 寄存 器 变量 未 被 破坏 。 许 多 


机 器 使 用 运行 时 堆栈 来 完成 这 个 任务 。 当 函数 开始 执行 时 ， 它 把 需要 使 用 的 所 有 寄存 器 的 内 容 都 保存 到 内 存 中 ， 当 函数 返回 时 ， 这 些 值 会 再 复制 到 寄存 器 中 。 


udio Coamaaand Proapt (2010) 


值得 注意 的 是 ， 在 许多 机 器 的 硬件 实现 中 ， 并 不 会 为 寄存 器 指定 地 址 。 同 样 ， 某 个 特定 的 寄存 器 在 不 同 的 时 刻 所 保存 的 值 也 不 一 定 相同 。 基 于 这 些 原因 ， 机 器 并 不 会 向 你 提供 寄存 器 变量 的 地 址 。 因 


图 1-43 ”代码 清单 1-29 的 运行 结果 


此 ， 在 C 语 言 中 ， 你 不 能 够 通过 “&” 操作 符 来 访问 register 变 量 的 地 址 。 


最 后 ， 在 使 用 register 变 量 时 ， 还 需要 注意 如 下 几 个 方面 : 


“ 只 有 局 部 自动 变量 和 形式 参数 可 以 作为 寄存 器 变量 ， 否 则 将 会 导致 无 法 编译 。 


“ 一 个 计算 机 系统 中 的 寄存 器 数目 有 限 ， 不 能 定义 任意 多 个 寄存 器 变量 。 


. 局 部 静态 变量 不 能 定义 为 寄存 器 变量 。 


' tegistet 变 量 一 般 只 对 整 型 和 字符 型 数据 有 用 。 


“ 不 能 使 用 取 地 址 运算 符 “&” 求 寄存 器 变量 的 地 址 。 


建议 9: 尽量 不 要 在 可 重 入 函数 中 使 用 静态 (或 全 局 ) 变量 


前 面 介绍 过 ， 静 态 变 量 的 存储 方式 与 全 局 变量 一 样 ， 都 是 静态 存储 方式 。 因 此 ， 在 使 
， 而 不 必 担心 数据 错误 。 反 之 ， 不 可 年 


局 变量 、 静 态 变量 的 函数 时 ， 需 要 考虑 重 入 问题 。 所 谓 的 可 重 入 函数 是 指 函 数 可 以 由 多 于 一 个 的 任务 并 发 使 
看 入 函数 不 能 由 超过 一 个 的 任务 所 共享 ， 除 非 能 够 确保 函数 的 互 斥 性 (或 者 使 用 信号 量 ， 或 者 在 代码 的 关键 部 分 禁用 中 断 ) 。 


来 看 一 个 不 可 重 入 函数 的 示例 ， 代 码 如 下 所 示 : 


size t sum index ( size t index ) 
{ 
size 七 i; 
static size t sum=0; 
for (i =17 1 <= index i++) 
{ 

sum += i; 
} 


return sum; 


上 面 的 sum_index 函 数 之 所 以 是 不 可 重 入 的 ， 就 是 因为 函数 中 使 用 了 static 变 量 。 前 面 已 经 阐述 过 ， 静 态 局 部 变量 是 在 编译 时 赋 初 值 的 ， 
数 时 不 再 重新 赋 初 值 ， 而 是 保留 上 次 函数 调用 结束 时 的 值 。 所 以 ， 这 样 的 函数 又 被 称 为 带 “ 内 部 存储 器 ”功能 的 函数 。 


只 赋 初 值 一 次 ， 在 程序 运行 时 它 已 有 初 值 。 以 后 在 每 次 调用 


函数 sum_index 的 调用 示例 如 下 : 


int main (void) 

", sum index (1) ) ; 
", sum index (2) ) ; 
", sum index (3) ) ; 


运行 结果 如 图 1-44 所 示 。 


1-44 调用 sum_index 有 函数 的 运行 结果 


由 于 全 局 变量 与 静态 变量 一 样 ， 都 是 静态 存储 方式 ， 因 此 ， 它 同样 可 以 导致 不 可 重 入 函数 ， 如 下 面 的 代码 所 示 : 


size t g sum = 0; 
size t sum index ( size t index ) 
{ 
size 七 i; 
for (i= 1; i <= index; i++) 
{ 


g_sum += 1; 


return g_ sum; 


因此 ， 如 果 需 要 一 个 可 重 入 的 函数 ， 那 么 一 定 要 尽量 避免 使 用 static 变 量 与 全 局 变 
必须 以 static 局 部 变量 的 地 址 为 返回 值 ， 若 为 auto 类 型 ， 则 返回 为 错 指针 。 


， 能 不 用 则 尽量 不 用 。 当 然 ， 有 些 时 候 在 函数 中 是 必须 使 用 static 变 量 的， 比如 当 某 函 数 的 返回 值 为 指针 类 型 时 ， 则 


如 果 我 们 需要 将 上 面 的 函数 修改 为 可 重 入 的 函数 ， 其 实 也 很 简单 ， 只 要 将 声明 sum 变 量 中 的 


,只 static 关 键 字 去 掉 ， 将 变量 sum 变 为 一 个 auto 类 型 的 变量 ， 函 数 即 可 变 为 一 个 可 重 入 的 函数 。 如 下 面 的 代码 
所 示 : 


size t sum index ( size t index ) 
{ 

size 七 i; 

size t sum=0; 

for (i= 1; i <= index; i++) 

{ 

sum += i; 
} 


return sum; 


建议 10: 尽量 少 使 用 全 局 变量 


局 变量 的 作用 前 面 已 经 介绍 了 许多 ， 其 主要 作用 就 是 增加 函数 间 数 据 联系 的 渠道 。 由 于 同一 源 文件 或 多 个 源 文件 中 的 所 有 函数 都 能 够 引用 全 局 变量 的 值 ， 


因此 ， 如 果 在 一 个 函数 中 改变 全 局 变量 的 


值 ， 就 会 影响 到 其 他 的 函数 ， 相 当 于 各 个 函数 间 有 直接 的 传递 通道 。 由 于 函数 的 调用 只 能 带 回 一 个 返回 值 ， 因 此 有 时 可 以 利用 全 局 变量 来 增加 函数 联系 的 渠道 ， 从 而 使 函数 可 以 得 到 一 个 以 上 的 返回 值 。 


尽管 如 此 ， 过 多 使 用 全 局 变量 也 会 给 我 们 带 来 许多 的 麻烦 ， 主 要 表现 为 : 


“ 由 于 全 局 变量 是 静态 存储 方式 ， 因 此 它 在 程序 的 全 部 执行 过 程 中 都 会 占用 存储 单元 ， 而 不 是 仅 在 需要 时 才 开 辟 存 储 单元 。 


“ 它 使 函数 的 通用 性 降低 ， 因 为 函数 在 执行 时 依赖 其 所 在 的 外 部 变量 。 在 程序 设计 时 ， 我 们 要 求 模块 的 功能 单一 ， 各 模块 之 间 的 相互 影响 尽量 少 ,而 用 全 局 变量 很 显然 是 不 符合 这 个 原则 的 。 通 常 ， 我 
们 都 会 要 求 把 C 程 序 中 的 函数 做 成 一 个 封闭 体 ， 从 而 通过 “ 实 参 - 形 参 ”的 渠道 来 实现 与 外 界 的 联系 ， 这 样 的 程序 移植 性 好 ， 可 读 性 强 。 


“ 使 用 的 全 局 变量 过 多 ， 会 降低 程序 的 清晰 性 ， 我 们 往往 难以 清楚 地 判断 出 每 个 瞬时 各 个 外 部 变量 的 值 。 由 于 在 各 个 函数 执行 时 都 可 能 改变 外 部 变量 的 值 ， 这 就 很 容易 导致 程序 出 错 。 


-如果 在 同一 个 源 文件 中 ， 外 部 变量 与 局 部 变量 同名 ， 则 在 局 部 变量 的 作用 范围 内 ， 外 部 变量 会 被 “屏蔽 ”， 即 它 将 不 起 任何 作用 。 


基于 上 面 的 原因 ， 建 议 尽量 减少 全 局 变量 的 使 用 ， 同 时 建议 你 : 


“ 如 果 全 局 变量 仅 需要 在 单个 源 文件 中 访问 ， 则 可 以 将 这 个 变量 修改 为 静态 全 局 变量 ， 以 降低 模块 间 的 耦合 度 。 
“ 车 全 局 变量 仅 由 单个 函 数 访问 ， 则 可 以 将 这 个 变量 改 为 该 函数 的 静态 局 部 变量 ， 以 降低 模块 间 的 耦合 度 。 


“ 使 用 全 局 变量 、 静 态 全 局 变量 与 静态 局 部 变量 的 函数 时 ， 需 要 考虑 重 入 问题 。 


建议 11: 尽量 使 用 const 声 明 值 不 会 改变 的 变量 


从 字面 上 理解 ，const 是 constant 的 缩写 ， 是 恒定 不 变 的 意思 ， 也 翻译 为 常量 、 常 数 等 。 正 是 因为 这 一 点 ， 看 到 const 关 键 字 ， 很 多 人 就 认为 被 const 修 饰 的 值 是 常量 。 其 实 ， 在 C 语 言 中 ， 关 键 字 const 
的 功能 非常 强大 ， 它 不 仅 可 以 用 来 修饰 普通 变量 、 数 组 变量 与 指针 变量 等 ， 还 可 以 用 来 修饰 函数 的 参数 、 返 回 值 与 函数 本 身 。 这 些 将 会 在 后 面 的 章节 逐一 详细 讲解 ， 本 节 只 讨论 使 用 const 来 修饰 变量 的 情 
况 。 


对 变量 来 说 ，const 关 键 字 可 以 限定 一 个 变量 的 值 不 允许 被 改变 ， 从 而 保护 被 修饰 的 东西 ， 防 止 意外 修改 发 生 ， 这 在 一 定 程度 上 可 以 提高 程序 的 安全 性 和 可 靠 性 。 但 是 要 正确 地 使 用 const 变 量 , 我 们 必 


1.const 变 量 是 只 读 变量 ， 不 是 常量 


提 到 const 变 量 ， 总 有 人 喜欢 把 它 和 常量 混为一谈 。 其 实 const 变 量 不 是 常量 ， 准 确 地 说 它 应 该 是 只 读 的 变量 。 为 了 让 大 家 更 好 地 区 分 这 两 个 概念 ， 我 们 来 看 下 面 的 例子 : 


const int array num=10; 
int arr[array num]={1, 2, 3, 4, 5, 6, 7, 8, 9}; 


在 标准 的 ANSI C 中 ， 上 面 的 这 种 写法 是 错误 的 ， 因 为 数组 的 大 小 应 该 是 个 常量 ， 而 const int array_num 只 是 一 个 只 读 变 量 。 虽 然 常量 也 是 只 读 的 、 不 可 修改 的 (例如 10、 “5” 等) ， 但 只 读 变量 却 不 
千 于 常量 ， 只 读 变 量 被 编译 器 限定 为 不 能 够 被 修改 。 


实际 上 ， 根 据 编译 过 程 及 内 存 分 配 来 看 ， 这 种 用 法 本 来 应 该 是 合理 的 ， 只 是 ANSI C 对 数组 的 规定 限制 了 它 。 而 在 C++ 中 ， 上 面 的 这 种 写法 确实 是 正确 的 。 


2. 确 保 变 量 的 值 不 被 修改 


可 以 说 ，const 关 键 字 的 最 大 作用 就 是 确保 变量 赋 初 值 之 后 ， 其 值 不 会 被 任何 程序 修改 。 如 下 面 的 示例 代码 所 示 : 


const int array num=10; 
array_num++; // 错误 ， 不 可 以 被 修改 


很 显然 ， 语 句 “array_num++” 是 错误 的 。 同 样 ， 对 于 外 部 变量 ，const 一 样 可 以 确保 其 变量 的 值 不 被 修改 ， 如 下 面 的 代码 所 示 : 


extern const int i; // 正确 的 引用 
extern const int i="10"; // 错误 ， 不 可 以 被 再 次 赋值 


尽管 如 此 ， 网 上 仍然 流传 着 一 种 修改 const 变 量 的 说 法 ， 如 代码 清单 1-30 所 示 。 


代码 清单 1-30 ”const 变 量 使 用 示例 


#include <stdio.h> 
int main (void) 
{ 
const int i1=10; 
int *pl= (int *) &il; 
int *p2=pl; 
*pl=100; 
printf ("S09 gd dn" i1, *pls *p2) } 
printf ("%p %p Sp\n\n", &il, pl, p2) ; 
return 0; 


有 人 说 ， 这 样 const 变 量 就 能 被 修改 了 ， 但 运行 上 面 的 程序 ，const 变 量 的 值 根 本 没有 改变 ， 代 码 清单 1-30 的 运行 结果 如 图 1-45 所 示 。 


cc ¥isual Studio Coamard Pronpt 
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图 1-45 代码 清单 1-30 的 运行 结果 


在 图 1-45 中 ， 虽 然 “ 计 ，*p1，*p2” 所 得 的 值 不 同 ， 但 “&i1，p1，p2” 却 是 同一 个 地 址 ， 既 然 是 同一 地 址 ， 为 什么 输出 不 一 样 的 值 ? 


为 了 进一步 查看 其 原因 ， 我 们 在 代码 清单 1-30 中 添加 如 下 一 条 语句 : 


printf ("%d\n", * ( (int *) 0x0012FF74) ) ; 


这 样 就 可 以 直接 输出 地 址 所 存 的 值 了 。 得 到 的 结果 在 我 们 的 预料 之 中 ， 为 “100”。 或 许 大 家 认为 这 样 就 改变 了 const 变 量 的 值 。 


其 实 ，“int*p1= (int*) &i1; ”表面 上 给 了 它们 相同 的 指针 ， 但 是 const 变 量 的 值 是 保存 在 数据 段 (只 读 ) 的 ， 通 过 地 址 0x0012FF74 查 内 存 文件 可 得 知 其 属于 堆栈 段 。 也 就 是 说 ， 虽 然 地 址 相同 ， 但 
const 变 量 读 取 的 是 数据 段 ， 而 通过 指针 读 取 到 的 是 堆栈 段 。 


由 此 可 见 ，const 提 供 了 一 种 保护 机 制 ， 能 在 编译 阶段 阻止 其 变量 的 值 被 修改 。 但 它 并 不 能 完全 防止 在 程序 的 内 部 (甚至 是 外 部 ) 来 修改 这 个 值 。 也 就 是 说 ，const 变 量 是 只 读 变 量 ， 既 然 是 变量 ,那么 
就 可 以 获取 其 地 址 ， 然 后 修改 其 值 。 因 此 ， 当 汇编 成 二 进 制 之 后 ， 这 种 保护 机 制 就 不 复 存 在 了 。 


3. 节 省 空间 ， 避 免 不 必 要 的 内 存 分 配 


使 用 const 变 量 除了 可 以 确保 变量 值 不 被 修改 之 外 ， 同 时 它 还 可 以 节省 存储 空间 ， 避 免 不 必 要 的 内 存 分 配 。 通 常 ， 编 译 器 并 不 为 普通 const 只 读 变 量 分 配 存储 空间 ， 而 是 将 它们 保存 在 符号 表 中 ， 这 使 得 
它 成 为 一 个 编译 期 间 的 值 ， 没 有 了 存储 与 读 内 存 的 操作 ， 从 而 提高 效率 。 


第 2 章 “保持 严谨 的 程序 设计 ， 一切 从 表达 式 开始 做 起 


C 语 言 的 表达 式 遵 循 一 般 代数 规则 ， 由 常量 、 变 量 、 逊 数 和 运算 符 构 成 。 相 对 于 其 他 计算 机 语言 来 说 ，C 语 言 表达 式 的 功能 更 强大 ， 语 法 更 灵活 ， 种 类 也 比较 繁多 。 我 们 可 以 根据 运算 符号 把 它们 简单 地 
划分 为 算术 表达 式 、 关 系 表达 式 、 逻 辑 表 达 式 、 赋 值 表达 式 、 条 件 表达 式 和 喜 号 表达 式 。 


建议 12: 尽量 减少 使 用 除法 运算 与 求 模 运算 


对 计算 机 来 说， 除法 与 求 模 是 整数 算术 运算 中 最 复杂 的 运算 。 相 对 其 他 运算 (如 加 法 与 减法 ) 来 说， 这 两 种 算法 的 执行 速度 非常 慢 。 例 如 ，ARM 硬 件 上 不 支持 除法 指令 ， 编 译 器 调用 C 库 函数 来 实现 除 
法 运算 。 直 接 利用 C 库 函数 中 的 标准 整数 除法 程序 要 花费 20~ 100 个 周期 ， 消 耗 较 多 资源 。 


在 非 嵌入 式 领域 ， 因 为 CPU 运算 速度 快 、 存 储 器 容量 大 ， 所 以 执行 除法 运算 和 求 模 运 算 消耗 的 这 些 资源 对 计算 机 来 说 不 算 什 么 。 但 是 在 嵌入 式 领 域 ， 消 耗 大 量 资源 带 来 的 影响 不 言 而 喻 。 因 此 ， 从 理论 
上 讲 ， 我 们 应 该 在 程序 表达 式 中 尽量 减少 对 除法 运算 与 求 模 运 算 的 使 用 ， 尽 量 使 用 其 他 方法 来 代 蔡 除 法 与 求 模 运 算 。 例 如 ， 对 于 下 面 的 示例 代码 : 


if (x/y>z) 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 
} 


我 们 可 以 将 其 修改 成 如 下 形式 : 


if (((Yy>0) && (x>y*z) ) || ( (y<0) && (x<y*z) ) ) 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 


这 样 就 简单 地 避免 了 一 些 除法 运算 。 同 时 ， 也 可 以 在 表达 式 中 通过 合并 除法 的 方式 来 减少 除法 运算 ， 下 面 通过 示例 来 讲解 。 对 于 如 下 代码 : 


double x=a/b/c; 
double y=a/b+c/b; 


根据 数学 结合 原则 ， 上 面 的 代码 可 以 通过 合并 的 方式 减少 代码 中 的 除法 运算 ,修改 后 的 代码 如 下 : 


double x=a/ (b*c) ; 
double y= (atc) /b; 


同样 ， 对 于 求 模 运 算 ， 也 可 以 采用 相应 的 方法 来 代替 ， 如 下 面 的 示例 代码 : 


a=as8; 


// 可 以 修改 为 : 


a=ag7; 


对 于 下 面 的 表达 式 : 


x= (xty) $2; 


可 以 通过 如 下 方式 来 避免 使 用 模 操作 符 : 


X+=Yy; 
while (x>=z) 


X-=Z; 


通过 上 面 的 阐述 ， 相 信 大 家 对 如 何 减少 使 用 除法 与 模 运 算 有 了 初步 了 解 。 下 面 将 详细 讨论 如 何 优化 除法 运算 与 求 模 运 算 。 


建议 12-1: 用 倒数 相 乘 来 实现 除法 运算 


何 为 倒数 相 乘 ”其 实 很 简单 ， 它 的 核心 思想 就 是 利用 乘法 来 代 蔡 实 现 除法 运算 。 例 如 ， 在 IA-32 处 理 器 中 ， 乘 法 指令 的 运算 速度 比 除法 指令 要 快 4~ 6 倍 。 因 此 ， 在 某 些 情况 下 尽量 使 用 乘法 指令 来 代 蔡 除 
法 指令 。 


那么 ， 我 们 该 如 何 利用 乘法 来 代 蔡 实 现 除法 运算 呢 ? 原理 就 是 被 除数 乘 以 除数 的 倒数 ， 用 公式 表现 为 : 


= 


x/y=x* (1/y) 


例如 ,计算 10/5， 可 以 根据 公式 x/y=x* (1/y) 这 样 来 计算 : 


10/5=10* (1/5) =10*0.2=2 


在 实际 应 用 中 ， 一 些 编译 器 也 正 是 基于 这 个 原理 才 得 以 将 除法 运算 转换 为 乘法 运算 的 。 现 在 我 们 来 看 一 个 除法 运算 示例 ， 如 代码 清单 2-1 所 示 。 


代码 清单 2-1 ”除法 运算 示例 


#include <stdio.h> 
int main (void) 
{ 
int x = 3/2; 
float y = 3.0/2.0; 
printf ("3/2 = $d\r\n3.0/2.0 = %1.1f\n", x, y) ; 
return 0; 


代码 清单 2-1 的 运行 结果 如 图 2-1 所 示 。 


图 2-1 代码 清单 2-1 的 运行 结果 


通过 代码 清单 2-1 可 以 看 出 ， 很 明显 没 能 充分 考虑 到 浮 点 类 型 。 另外， 在 C 语 言 中 ， 一 般 情况 下 1 除 以 任何 数 其 结果 皆 为 0。 那 么 怎样 才能 解决 这 个 问题 呢 ? 编译 器 采用 了 一 种 称 为 “定点 运算 ” (fixed- 
point arithmetic) 的 方法 。 


那么 何 为 定点 运算 ， 定 点 运算 有 什么 特点 呢 ? 


前 面 已 经 阐述 过 ， 由 于 计算 机 表示 实数 时 为 了 在 固定 位 数 内 能 表示 尽量 精确 的 实数 值 ， 分 配给 表示 小 数 部 分 的 位 数 并 不 是 固定 的 ， 也 就 是 说 “小 数 点 是 浮动 的 。， 因 此 计算 机 表示 的 实数 数据 类 型 也 称 
为 浮 点 数 。 


相对 于 “小 数 点 是 浮动 的 ”来 讲 ， 定 点 运算 根据 字面 意思 来 理解 就 是 “小 数 点 是 固定 的 ”。 有 了 定点 运算 ， 表 示 小 数 时 不 再 用 阶 码 (exponent component， 即 小 数 点 在 浮 点 数据 类 型 中 的 位 置 ) ， 而 
是 要 保持 小 数 点 的 位 置 固定 不 变 。 这 和 硬件 浮 点 数 机 制 截然 不 同 ， 硬 件 浮 点 数 机 制 是 由 硬件 负责 向 整数 部 分 和 小 数 部 分 分 配 可 用 的 位 数 。 有 了 这 种 机 制 ， 浮 点 数 就 可 以 表示 很 大 范围 的 数 一 一 从 极 小 的 数 
(在 0~1 的 实数 ) 到 极 大 的 数 在 小 数 点 前 有 数 十 个 0) 。 这 种 小 数 的 定点 表示 法 有 很 多 优点 ， 尤 其 能 极 大 地 提高 效率 。 当 然 ， 作 为 代价 ， 同 样 也 必须 承受 随 之 而 来 的 精度 上 的 损失 。 


对 于 定点 数 表 示 法 (fixed-point) ， 相 信 大 家 并 不 陌生 。 所 谓 定点 格式 ， 即 约定 机 器 中 所 有 数据 的 小 数 点 位 置 是 固定 不 变 的 。 在 计算 机 中 通常 采用 两 种 简单 的 约定 : 将 小 数 点 的 位 置 固 定 在 数据 的 最 高 
位 之 前 〈 即 定点 小 数 ) ， 或 者 固定 在 最 低位 之 后 〈 即 定点 整数 ) 。 


其 中 ， 定 点 小 数 是 纯 小 数 ， 约 定 的 小 数 点 位 置 在 符号 位 之 后 、 有 效 数值 部 分 的 最 高 位 之 前 。 若 数据 x 的 形式 为 x=x0x1x2.…xn (其 中 xo 为 符号 位 ，x1，.…，xn 是 数值 的 有 效 部 分 ， 也 称 为 尾数 ，x1 为 最 高 有 


效 位 ) ， 则 在 计算 机 中 的 表示 形式 为 : 


符号 位 置 小数点 位 置 


图 2-2 ”定点 小 数 的 表现 形式 


一 般 说 来 ， 如 果 最 未 位 xzn=1， 前 面 各 位 都 为 0， 则 数 的 绝对 值 最 小 ， 即 |x|min=2-"; 如 果 各 位 均 为 1， 则 数 的 绝对 值 最 大 ， 即 |x|max=1-2"。 因 此 定点 小 数 的 表示 范围 是 : 


"< kk < 1 


定点 整数 是 纯 整数 ， 约 定 的 小 数 点 位 置 在 有 效 数 值 部 分 最 低位 之 后 。 若 数据 x 的 形式 为 x=x0x1X2…xn (其 中 x0 为 符号 位 ，x1，.…，Xn 是 尾数 ，xn 为 最 低 有 效 位 ) ， 则 在 计算 机 中 的 表示 形式 为 : 


*/r {ES 3 A 
侍 号 位 置 效 值 古 分 小 数 点 位 置 


图 2-3 ”定点 整数 的 表现 形式 


由 此 可 知 ， 定 点 整数 的 表示 范围 是 : 


当 数 据 小 于 定点 数 能 表示 的 最 小 值 时 ， 计 算 机 将 它 作 0 处 理 ， 称 为 下 溢 ; 当 数 据 大 于 定点 数 能 表示 的 最 大 值 时 ， 计 算 机 将 无 法 表示 ， 称 为 上 溢 ， 上 溢 和 下 溢 统 称 为 溢出 。 


当 计算 机 采用 定点 数 表示 时 ， 对 于 既 有 整数 又 有 小 数 的 原始 数据 ， 需 要 设 定 一 个 比例 因子 ， 数 据 按 该 比例 缩小 成 定点 小 数 或 扩大 成 定点 整数 再 参加 运算 。 在 运算 结果 中 ， 根 据 比 例 因 子 ， 将 数据 还 原 成 
实际 数值 。 若 比例 因子 选择 不 当 ， 往 往 会 使 运算 结果 产生 溢出 或 降低 数据 的 有 效 精 度 。 


建议 12-2: 使 用 牛顿 迭代 法 求 除数 的 倒数 


在 上 一 小 节 ， 我 们 阐述 了 如 何 使 用 倒数 相 乘 (x/y=x* (1/y) ) 的 方法 来 实现 除法 运算 。 然 而 ， 对 于 如 何 能 够 快速 有 效 地 取 倒 数 ， 牛 顿 迭代 法 (Newton'”s method) 是 最 佳 方案 。 


对 于 牛顿 迭代 法 ， 相 信 学 过 高 等 数学 的 读者 并 不 陌生 ， 它 又 称 为 牛顿 -拉夫 逊 方法 (Newton-Raphson method) ， 它 是 牛顿 在 17 世 纪 提 出 的 一 种 在 实数 域 和 复数 域 上 近似 求解 方程 的 方法 ， 它 将 非 线 
性 方程 线性 化 ， 从 而 得 到 和 迭代 序列 的 一 种 方法 。 


对 于 方程 f (x) =0， 设 x0 为 它 的 一 个 近似 根 ， 则 函数 f 〈(x) 在 xo 附 近 截 断 高 次 项 可 用 一 阶 泰勒 多 项 式 展开 为 如 下 形式 : 


ff oO) tf (wo) -xo) (1) 


这 样 ， 由 式 (1) 我 们 可 以 将 f (x) =0 转 化 为 如 下 形式 : 


f(xo)tf (Xo)(x—xo)=0 CE 入.) 


在 这 里 ， 我 们 设 f (x) #0， 则 有 : 


取 x 作 为 原 方程 新 的 近似 根 x1， 再 代入 方程 ， 如 此 反复 ， 于 是 就 产生 了 迭代 公式 : 
.uy \ 
7 全 元 


有 了 和 迭代 公式 (4) 之 后 ,现在 我 们 继续 来 看 如 何 用 牛顿 迭代 公式 来 求 倒数 ， 即 求 除数 a 的 倒数 1/a。 


Nntl— Xn 一 


这 里 我 们 设 / 3: ， 式 中 x 为 a 的 倒数 ， 方程 f (x) =0 为 一 非 线性 方程 。 现 在 把 f (x) =0 代 入 牛顿 迭代 序列 式 (4) 中 ， 就 可 以 得 出 求 倒数 的 公式 ， 如 下 所 示 : 


/Cw) (Xn) 


Nntl Xn 


Xn 一 


=Xn X (2.0—a x xn) (3 ) 


在 式 (5) 中 ，xn 为 第 n 次 迭代 的 近似 根 。 


如 式 (5) 所 示 ， 用 牛顿 迭代 法 求 倒数 ， 每 次 迭代 需要 一 次 减法 与 两 次 乘法 ， 所 用 的 迭代 次 数 决定 最 终 的 计算 速度 和 精度 。 和 代 次 数 越 多 ， 则 精度 越 高 。 但 迭代 次 数 越 多 ， 速 度 也 越 慢 ， 因 此 实际 运用 时 
应 综合 考虑 速度 和 精度 两 方面 的 因素 ， 选 择 合适 的 迭代 次 数 。 


其 实 ， 牛 顿 迭 代 法 在 程序 中 应 用 得 非常 广泛 ， 如 最 常用 的 开 方 、 开 方 求 倒数 等 。 在 Quake 开 源码 中 ， 在 game/code/q_math.c 文 件 中 就 有 一 个 函数 Q_rsqrt， 它 的 作用 是 将 一 个 数 开 平方 后 取 倒 ， 其 运 
行 效率 也 非常 高 。 如 代码 清单 2-2 所 示 。 


代码 清单 2-2 Q_rsqrt 函 数 的 实现 


float Q rsqrt ( float number ) 
{ 
long i; 
float x2， Ys 
const float threehalfs = 1.5F; 
x2 = number * 0.5F 


y = number; 

i =* ( 1ong 在 间 &y; 

1 = Ox5f37590f = (i>>1),， 

YY =* ( float * ) &i; 

// 第 一 次 选 代 

y¥ =Yy* (threehalfs- (x2*y*y) ); 
vy 弟 三 全 人 

//y =y* (threehalfs- (x2*y*y) ); 
return y; 


从 代码 清单 2-2 中 可 以 看 出 ， 程 序 首先 猜测 出 一 个 接近 1.0/sqrt (number) 的 近似 值 ， 然 后 两 次 使 用 牛顿 迭代 法 进行 迭代 (实际 只 需要 使 用 一 次 ) 。 这 里 需要 特别 注意 的 是 0x5f3759df 这 个 值 ， 因 为 通 
过 执行 语句 “0x5f3759df- (i> >1) ”， 得 出 的 值 出 人 意料 地 接近 1/sqrt (number) 的 值 ， 因 此 ， 我 们 只 需要 一 次 迭代 就 可 以 求 得 近似 解 ， 或 许 这 就 是 数学 的 神奇 。 


建议 12-3: 用 减法 运算 来 实现 整数 除法 运算 


我 们 知道 ， 减 法 运算 比 除法 运算 要 快 得 多 。 因 此 ， 对 整数 除法 运算 来 说 ， 如 果 知道 被 除数 是 除数 很 小 的 倍数 ， 那 么 可 以 使 用 减法 运算 来 代替 除法 运算 。 例 如 ， 对 于 下 面 的 示例 代码 : 


unsigned int x=300; 
unsigned int y=100; 
unsigned int z=x/y; 


我 们 可 以 将 “z=x/y” 表 达 式 修改 成 如 下 形式 : 


unsigned int x=300; 
unsigned int y=100; 
unsigned int z=0; 
while (x>=y) 
{ 

Ys 


} 


这 里 使 用 减法 来 代 蔡 除 法 运算 ， 虽 然 代 码 看 起 来 不 是 很 直观 ， 但 是 在 运行 效率 上 确实 要 快 许多 。 当 然 ， 具 体 效 率 也 要 取决 于 被 除数 与 除数 的 倍数 。 如 果 倍数 比较 大 ， 那 么 相应 的 循环 次 数 就 会 增多 ， 采 
取 这 种 方法 就 得 不 偿 失 了 。 


建议 12-4: 用 移 位 运算 实现 乘除 法 运算 


移 位 运算 来 实现 乘除 法 运算 的 方法 ， 相 信 大 家 并 不 陌生 ， 实 际 上 有 很 多 C 编 译 器 都 能 够 自动 地 做 好 这 个 优化 。 通 常 ， 如 果 需 要 乘 以 或 除 以 27， 都 可 以 用 移 位 的 方法 代 蔡 。 


例如 : 


a=a*2; 
b=b/2; 


可 以 修改 为 如 下 形式 : 


a=a<<1; 
b=b>>1; 


其 中 ， 除 以 2 等 价 于 右 移 1 位 ， 乘 以 2 等 价 于 左 移 1 位 。 同 理 ， 除 以 4 等 价 于 右 移 2 位 ， 乘 以 4 等 价 于 左 移 2 位 ; 除 以 8 等 价 于 右 移 3 位 ， 乘 以 8 等 价 于 左 移 3 位 ， 以 此 类 推 。 


其 实 ， 利 用 上 面 的 原理 ， 只 要 是 乘 以 或 除 以 一 个 整数 ， 均 可 以 用 移 位 运算 的 方法 来 得 到 结果 ， 例 如 : 


a=a*5; 


可 以 将 其 分 解 为 a* (4+1) ， 即 a*4+a*1。 由 此 ， 我 们 就 可 以 很 简单 地 得 到 下 面 的 程序 表达 式 : 


a= (a<<2) +a 


建议 12-5: 尽量 将 浮 点 除法 转化 为 相应 的 整数 除法 运算 


有 时 候 ， 如 果 不 能 够 在 代码 中 避免 除法 运算 ， 那 么 尽量 使 除数 和 被 除数 是 无 符号 类 型 的 整数 。 实 际 上 ， 有 符号 的 除法 运算 执行 起 来 比 无 符号 的 除法 运算 更 加 慢 ， 因 为 有 符号 的 除法 运算 要 先 取得 除数 和 
被 除数 的 绝对 值 ， 再 调用 无 符号 除法 运算 ， 最 后 再 确定 结果 的 符号 。 


同时 ， 对 于 浮 点 除法 运算 ， 可 以 先 将 浮 点 除法 运算 转化 为 相应 的 整数 除法 运算 ， 最 后 对 结果 进行 相应 处 理 。 例 如 ， 可 以 将 浮 点 除法 运算 的 分 子 和 分 母 同时 放大 相同 的 倍数 ， 就 可 以 将 浮 点 除法 运算 转换 
成 相同 功能 的 整数 除法 运算 。 


建议 13: 保证 除法 和 求 模 运算 不 会 导致 除 零 错 误 


我 们 知道 ， 除 法 运算 与 求 模 运 算 都 可 能 会 导致 除 零 错误 。 因 此 ， 我 们 在 做 除法 与 求 模 运 算 的 时 候 应 该 避免 除 数 为 零 的 情况 发 生 ， 示 例 代码 如 下 : 


unsigned int x; 
unsigned int y; 
unsigned int result; 
/* 初 始 x，y,，result*/ 
if (y==0) 

{ 

i 


else 


result=x/y; 


除 此 之 外 ， 当 被 除数 等 于 有 符号 整数 类 型 的 最 小 值 ( 负 值 ) 且 除 数 等 于 -1 时 ， 也 可 能 会 产生 溢出 。 这 种 情况 应 该 尽量 避免 ,示例 代码 如 下 : 


signed long x; 

signed long y; 

signed long result; 

/* 初 始 x,，y，result*/ 

if ( (y==0) || ( (x==LONG MIN) && (y==-1) ) ) 
{ 

} 


else 


result=x/y; 
} 


同 理 ， 求 模 运 算 也 应 该 采用 相同 的 方法 来 避免 除 零 错误 的 发 生 ， 示 例 代码 如 下 : 


signed long x; 

signed long y; 

signed long result; 

/* 初 始 x,，y，result*/ 

if ( (y==0) || ( (x==LONG MIN) && (y==-1) ) ) 
{ 


} 


else 


result=x%y; 


} 


建议 14: 适当 地 使 用 位 操作 来 提高 计算 效率 


我 们 知道 ， 程 序 中 的 所 有 数据 在 计算 机 内 存 中 都 是 以 二 进 制 的 形式 进行 存储 的 ， 数 据 的 位 是 可 以 操作 的 最 小 数据 单位 ， 位 操作 就 是 直接 对 整数 在 内 存 中 的 二 进 制 位 进行 操作 。 因 此 ， 在 理论 上 ， 我 们 可 
以 通过 “位 运算 ”来 完成 所 有 的 运算 和 操作 ， 从 而 有 效 地 提高 程序 运行 的 效率 。 


C 语 言 中 提供 了 & (与 ) 、| (或 ) 、^( 异 或 ) 、~ ( 取 反 ) 、> > ( 右 移 ) 、<< ( 左 移 ) 6 种 位 操作 符 。 我 们 可 以 在 程序 中 合理 地 使 用 这 些 位 操作 符号 来 提高 程序 的 运行 效率 ， 例 如 ， 建 议 12-4 中 介绍 
的 利用 移 位 运算 来 提高 乘除 法 与 求 模 运 算 。 对 于 下 面 的 示例 代码 : 


int x=0; 


int y=0; 
x = 257 /8; 
y = 456 % 32; 


我 们 可 以 通过 位 操作 符 将 其 修改 成 如 下 形式 : 


int x=0; 

int y=0; 

X = 257 >>3; 

y= 456 - (456 >> 4 << 4) ; 


这 样 就 可 以 使 程序 在 性 能 上 得 到 一 定 提升 。 


建议 14-1: 尽量 避免 对 未 知 的 有 符号 数 执行 位 操作 


在 C 语 言 中 ， 如 果 在 未 知 的 有 符号 数 上 执行 位 操作 ， 很 可 能 会 导致 缓冲 区 溢出 ， 从 而 在 某 些 情况 下 导致 攻击 者 执行 任意 代码 ， 同 时 ， 还 可 能 会 出 现 出 平 意料 的 行为 或 编译 器 定义 的 行为 。 


下 面 来 看 一 个 简单 的 示例 ， 如 代码 清单 2-3 所 示 。 


代码 清单 2-3 ”在 未 知 的 有 符号 数 上 执行 位 操作 示例 


#include <stdio.h> 

int main (void) 

{ 
int x=0; 
int y=0x80000000; 
char buf[sizeof ("128") ]; 
x=sprintf (buf, "%u", y>>24) ; 
if (x==-1||x>=sizeof (buf) ) 


// 错误 处 理 


BE 
Printf (buf}) + 
return 0; 


在 代码 清单 2-3 中 ，y> >24 的 执行 结果 为 4294967168， 而 sizeof (buf) 的 结果 为 4。 当 我 们 将 y> > 24 的 结果 值 转换 为 字符 串 “4294967168” 时 ， 超 出 了 buf 范 围 ， 所 以 结果 值 无 法 完全 存储 在 buf 中 。 
因此 ， 在 执行 语句 “x=sprintf (buf，"%u"，y>>24) ”时 ，sprintf 方 法 在 进行 写 操作 时 就 会 越过 buf 的 边界 ， 从 而 产生 缓冲 区 溢出 。 


如 果 在 编译 器 VC++ 中 执行 这 段 程序 ， 将 会 产生 如 图 2-4 所 示 的 错误 报告 。 


Debug Errorl 


programe .. 序 代码 的 n 个 建议 \ 编 写 高 质量 代码 : 改善 C 程 序 代码 的 n 个 
建议 \ 本 书 程序 示例 源 代 码 \1\Test\Debug\Test.exe 

Module: .. 序 代码 的 n 个 建议 \ 编 写 高 质量 代码 : 改善 C 程 序 代 码 的 n 个 建 
议 \ 本 书 程序 示例 源 代 码 \1\Test\Debug\Testexe 

File: 


Run-Time Check Failure #2 - Stack around the varnable ' buf was 
corrupted. 


{Press Retry to debug the application) 


图 2-4 在 VC++ 中 执行 代码 清单 2-3 的 错误 报告 


在 C99 中 ， 要 修正 这 样 的 错误 ， 最 好 利用 snprintf 方 法 来 代替 sprintf 方 法 。 因 为 snprintf 方 法 最 多 从 源 串 中 复制 n-1 个 字符 到 目标 串 中 ， 然 后 再 从 后 面 加 一 个 0。 因 此 ， 如 果 目 标 串 的 大 小 为 n， 将 不 会 产 
生 溢 出 。 


当然 ， 如 果 将 变量 y 声 明成 为 无 符号 类 型 ， 那 么 这 种 缓冲 区 溢出 错误 将 不 会 发 生 ， 如 代码 清单 2-4 所 示 。 


代码 清单 2-4 ”代码 清单 2-3 的 改进 示例 


#include <stdio.h> 

int main (void) 

{ 
int x=0; 
unsigned int y=0x80000000; 
char buf[sizeof ("128") ]; 
x=sprintf (buf, "%u", y>>24) ; 
if (x==-1| |x>=sizeof (buf) ) 


// 错误 处 理 


printf (buf) ; 
return 0; 


建议 14-2: 在 右 移 中 合理 地 选择 0 或 符号 位 来 填充 空 出 的 位 


在 右 移 运算 中 ， 空 出 的 位 用 0 还 是 符号 位 进行 填充 呢 ? 


其 实 答案 由 具体 的 C 语 言 编 译 器 实现 来 决定 。 在 通常 情况 下 ， 如 果 要 进行 移 位 的 操作 数 是 无 符号 类 型 的 ， 那 么 空 出 的 位 将 用 0 进行 填充 ; 如 果 要 进行 移 位 的 操作 数 是 有 符号 类 型 的 ， 则 人 语言 编译 器 实现 
既 可 选择 0 来 进行 填充 ， 也 可 选择 符号 位 进行 填充 。 


因此 ， 如 果 很 关心 一 个 右 移 运 算 中 的 空位 ， 那 么 可 以 使 用 unsigned 修 饰 符 来 声明 变量 ， 这 样 空位 都 会 被 设置 为 0。 同 时 ， 如 果 一 个 程序 采用 了 有 符号 数 的 右 移 位 操作 ， 那 么 它 就 是 不 可 移植 的 。 


建议 14-3: 移 位 的 数量 必须 大 于 等 于 0 目 小 于 操作 数 的 位 数 


如 果 被 移 位 的 操作 数 的 长 度 为 nM， 那么 移 位 的 数量 必须 大 于 等 于 0 且 小 于 n。 因 此 ， 在 一 次 单独 的 操作 中 不 可 能 将 所 有 的 位 从 变量 中 移出 。 例 如 ， 一 个 int 型 的 整数 是 32 位 ， 并 且 n 是 一 个 int 型 整数 ， 那 么 
n<<31 和 n< <0 是 合法 的 ， 但 n<<32 和 n< <-1 是 不 合法 的 。 因 此 ， 我 们 在 进行 移 位 运算 的 时 候 必须 做 相关 测试 。 示 例 代 码 如 下 所 示 : 


unsigned int x; 
unsigned int y; 
unsigned int result; 
/* 初 始 x,，y,，result*/ 


if (y>=sizeof (unsigned int) * CHAR BIT) 
// 错误 处 理 
i 


else 


result=x>>y; 


这 里 还 需要 说 明 的 是 ， 对 于 变量 x 与 y，C99 规 定 : 


“ 对 于 x<<y， 如 果 x 是 有 符号 类 型 的 非 负 值 ， 并 且 x<<y 的 移 位 结果 x*2? 可 以 用 结果 类 型 表示 ， 那 么 这 个 表达 式 就 是 结果 值 ， 否 则 ， 其 行为 是 未 定义 的 ; 如 果 x 是 无 符号 类 型 ， 则 x<<y 的 移 位 结果 为 x*27， 
是 根据 “结果 类 型 可 以 表达 的 最 大 值 加 1” 进 行 求 模 运算 得 到 的 结果 。 需 要 注意 的 是 ， 尽 管 在 C99 中 指定 了 无 符号 整数 的 取 模 行为 ， 无 符号 整数 溢出 还 是 常常 导致 出 于 意料 的 值 以 及 因此 产生 的 潜在 安全 风 
险 。 


“ 对 于 x>>y， 如 果 x 是 无 符号 类 型 或 非 负 值 的 有 符号 类 型 ， 那 么 x>>y 的 移 位 结果 为 x/27 的 商 的 整数 部 分 ; 如 果 x 是 有 符号 类 型 的 负 值 ， 那 么 x>>y 的 移 位 结果 是 由 编译 器 所 定义 的 。 因 此 ， 对 一 个 带 符号 整 
数 进行 右 移 运算 和 将 它 除 以 2 的 某 次 霸 不 一 定 是 等 价 的 。 要 证 明 这 一 点 很 容易 ， 考 虑 〈-1) >>1 的 值 ， 它 的 执行 结果 不 可 能 为 0， 而 在 大 多 数 C 语 言 编 译 器 中 (-1) /2 的 结果 都 是 0。 


建议 14-4: 尽量 避免 在 同一 个 数据 上 执行 位 操作 与 算术 运算 


虽然 位 操作 在 很 大 程度 上 可 以 提高 程序 的 执行 效率 ， 但 在 同一 个 变量 上 执行 位 操作 和 算术 运算 会 模糊 程序 员 的 意 
执行 什么 检查 以 消除 安全 缺陷 ， 保 证 数据 的 完整 性 。 示 例 代码 如 下 : 


网 


， 削 弱 代码 的 可 移植 性 与 可 读 性 ， 还 会 导致 安全 审核 员 或 代码 维护 人 员 难 以 确定 应 该 


unsigned int x=10; 
X+= (x<<3) -5; 


虽然 上 面 的 代码 是 一 条 合法 的 优化 语句 ， 但 是 它 的 确 严重 地 破坏 了 程序 的 可 读 性 。 因 此 ， 建 议 采 用 下 面 的 方式 来 书写 代码 : 


unsigned int x=10; 
X=X*9-5; 


或 许 这 时 候 有 读者 会 问 ， 这 样 写 代码 不 就 降低 了 程序 的 执行 效率 吗 ? 


其 实 不 然 ， 有 些 优化 编译 器 会 比 我 们 做 得 更 好 。 以 整数 乘法 为 例 ， 如 果 目 标 系统 有 乘法 指令 ， 硬 件 的 乘法 比 自己 用 移 位 操作 实现 的 乘法 要 快 得 多 ; 如 果 目 标 系统 没有 乘法 指令 ， 编 译 器 会 自动 用 移 位 等 
操作 来 优化 乘法 ， 示 例 代码 如 下 : 


unsigned int x=8; 
unsigned int y=x*4; 
unsigned int z=x/2; 


上 面 的 代码 在 Microsoft Visual Studio 2010 集 成 开发 环境 VC++ 的 Debug 模 式 下 将 生成 如 下 汇编 代码 : 


unsigned int x=8; 


00DB139E mov dword ptr [x], 8 
unsigned int y=x*4; 

O00DB13A5 mov eax, dword ptr [x] 

00DB13A8 shl eax, 2 

O00DB13AB mov dword ptr [y], eax 
unsigned int z=x/2; 

O00DB13AE mov eax, dword ptr [x] 

00DB13B1 shr eax, 1 

00DB13B3 mov dword ptr [z], eax 


从 上 面 的 汇编 代码 可 以 看 出 ， 编 译 器 会 自动 在 汇编 代码 中 用 移 位 操作 来 优化 乘除 法 运算 。 因 此 ， 完 全 没有 必要 用 手工 进行 这 种 优化 ， 编 译 器 会 自动 完成 。 我 们 应 该 把 精力 放 在 改进 程序 的 算法 上 ， 一 个 
好 的 算法 可 以 使 程序 运行 效率 大 大 提高 。 当 然 ， 如 果 除 数 为 2 的 寡 ， 那 么 在 进行 除法 运算 时 可 以 适当 地 采用 移 位 算法 来 实现 乘除 法 。 


除 此 之 外 ， 采 用 移 位 操作 还 需要 注意 不 要 超过 该 数据 类 型 的 精度 范围 数据 范围 ) ， 示 例 代 码 如 下 : 


#include <stdio.h> 

int main (void) 

{ 
int x=-2147483647; 
Me<<1; 
Brintf ("%d NE 0) 了 
return 0; 


在 上 面 的 代码 中 就 要 注意 精度 问题 ， 在 32 位 系统 中 ，int 类 型 占 4 个 字 节 ， 精 度 范围 为 “-2147483647~2147483647”。 其 中 ,数据 “-2147483647” 的 原 码 
为 “11111111111111111111111111111111”， 补 码 为 “10000000000000000000000000000001”。 现 在 将 “10000000000000000000000000000001” 左 移 1 位 ， 最 高 位 的 1 没有 了 ， 最 低位 左 移 一 
位 ， 得 到 的 结果 为 2。 


建议 15: 避免 操作 符 混 ; 


在 C 语 言 中 ， 有 些 操作 符 很 相似 ， 比 如 = 与 ==、 上 与 |、& 与 && 等 。 在 使 用 这 些 操作 符 时 ， 一 不 小 心 就 很 容易 造成 混淆 ， 给 程序 带 来 不 必要 的 错误 。 因 此 ， 在 编写 代码 时 应 该 特别 注意 这 些 容易 混淆 的 操 
作 符 ， 熟 练 地 掌握 它们 之 间 的 区 别 与 用 法 。 


建议 15-1: 避免 “=” 与 “==” 混 湛 


在 C 语 言 中 ， 最 容易 产生 混淆 的 操作 符 要 属 “=” 与 “==”。 其 中 ，“=” 并 不 等 于 符号 ， 而 是 赋值 操作 符 ， 如 x=3。 除 此 之 外 ， 还 可 以 在 一 个 语句 中 向 多 个 变量 赋 同 一 个 值 ， 即 多 重 赋值 。 例 如 ， 在 下 
面 代码 中 把 0 同时 赋 给 x、y 与 z。 


x=y=z=0 


相对 于 只 有 一 个 等 号 的 赋值 操作 符 ， 关 系 操作 符 中 的 等 于 操作 符 采用 两 个 等 号 “= =” 来 表示 。 正 因 如 此 ， 叶 致 了 一 个 潜在 的 问题 : 出 于 习惯 ， 我 们 可 能 经 常 将 需要 等 于 操作 符 的 地 方 写成 赋值 操作 符 ， 
如 下 面 的 代码 : 


int x=10; 
int y=1; 
if (x=y) 


/* 处 理 代码 */ 


在 上 面 的 代码 中 ，if 语 句 看 起 来 好 像 是 要 检查 变量 x 是 否 等 于 变量 y。 实 际 上 并 非 如 此 ， 此 时 if 语 句 将 变量 y 的 值 赋 给 变量 x 并 检查 结果 是 否 为 非 零 。 因 此 ， 虽 然 这 里 的 x 不 等 于 y， 但 是 y 的 值 为 1，if 语 句 还 
会 返回 真 。 


当然 ， 当 确实 需要 先 对 一 个 变量 进行 赋值 之 后 再 检查 变量 是 否 非 零 时 ， 可 以 考虑 显 式 给 出 比较 符 。 示 例 代码 如 下 : 


int x=10; 
int y=1; 
if ( (x=y) ! =0) 


/* 处 理 代码 */ 
bE: 


这 样 ， 程 序 的 可 读 性 就 得 到 了 很 大 提高 。 


上 面 的 示例 代码 详细 地 阐述 了 将 等 于 操作 符 “==” 误 写成 赋值 操作 符 “=” 所 带 来 的 严重 后 果 。 同 理 ， 将 赋值 操作 符 “=” 误 写成 等 于 操作 符 “= =” 也 会 带 来 非常 严重 的 后 果 。 示 例 代码 如 下 : 
int x=0; 
int y=-1; 


if ( (xy) <0) 
{ 
printf (wy<0\n") ; 


在 上 面 的 代码 中 ，if 语 句 的 本 意 是 将 变量 y 的 值 赋 给 变量 x， 然 后 再 判断 变量 x 的 值 是 否 小 于 0。 如 果 变 量 x 的 值 小 于 0， 就 执行 语句 printf ("y<0\n") 。 由 于 错误 地 将 赋值 操作 符 “=” 误 写成 等 于 操作 
符 “==”， 所 以 无 论 变量 y 为 何 值 ， 都 不 会 执行 语句 printf ("y<0\n") 。 原 因 是 等 于 操作 符 “==” 的 结果 只 能 是 0 或 1， 永 远 不 会 小 于 0。 


除 此 之 外 ， 为 了 防止 将 等 于 操作 符 “==” 误 写成 赋值 操作 符 “=” ， 还 可 以 在 代码 中 采用 如 下 形式 : 


int x=0; 
if (0==x) 
{ 
Ek 


这 样 ， 就 可 以 在 一 定 程度 上 避免 误 写 的 发 生 。 


建议 15-2: 避免 “|” 与 “i” 混淆 


在 C 语 言 中 ， “| 是 逻辑 操作 符 (或 ) ， 它 的 操作 数 是 布尔 型 ， 即 只 有 “0” (表示 false) 和 “1” (表示 true) 两 个 数值 。C 语 言 规 定 ， 在 逻辑 运算 中 ， 所 有 非 0 的 数值 都 被 看 成 1 处 理 。 


而 “|” 是 位 操作 符 (或 ) ， 其 操作 数 是 位 序列 。 位 序列 可 以 是 字符 型 、 整 型 与 长 短 整 型 等 (通常 情况 下 选择 无 符号 整 型 )。 在 位 运算 中 ， 相 应 的 位 之 间 进 行 逻 辑 运算 ， 因 此 ， 从 逻辑 上 讲 ， 位 运算 过 程 
包含 多 个 逻辑 运算 过 程 。 


下 面 通 过 代码 清单 2-5 来 了 解 两 者 之 间 的 区 别 。 


代码 清单 2-5 “| ”与 “||” 运算 符 操作 示例 


#include <stdio.h> 

int main (void) 

{ 
unsigned int x = 0x1101; 
unsigned int y = 0x1100; 


/* 逻 辑 操作 */ 
printf ("sizeof (x || y) : %d\n", sizeof (x || y) ) ; 
if (x| |y) 
{ 

Printf (x || y: %d (True) \n", x|ly); 
} 
else 
{ 

printf ("x || y: %d (False) \n", x||y); 
} 
/* 位 操作 */ 


Printf ("sizeof (x | y) : %d\n", sizeof (x | y) ) ; 
Belinte (va | FN 
return 0; 


在 代码 清单 2-5 中 ， 因 为 变量 x 与 变量 y 都 不 为 0%， 所 以 执行 语句 if (xlly) 返回 1。 而 当 执 行 xly ( 即 1101|1100) 时 ， 相 应 的 位 之 间 逐 一 地 进行 逻辑 运算 (或 ) ， 因 此 所 得 到 的 结果 为 1101。 代 码 清单 2-5 的 
执行 结果 如 图 2-5 所 示 。 


到 C:\Windows\system32\cmd.exe 


建议 15-3: 避免 “&” 与 “&& 


同 建议 15-2 相 似 ， 


代码 清单 2-6 


#include <stdio.h> 


int 


{ 


在 代码 清单 2-6 中 ， 
2- 6 的 执行 结果 如 图 2-6 所 示 。 


代码 清和 


main (void) 


unsigned int x = 0x1101; 
unsigned int y = 0x1100; 
/* 逻 辑 操作 */ 

printf ("sizeof (x && Y) : 
if (x&&y) 


Printf (x && Y : 
} 
else 
f 

Printf (x && Y : 
} 
/* 位 操作 */ 


printf ("sizeof (x & y): 
Brintf ("x & YY Ye VD 
return 0; 


" Es 
7E6} 


gd\n", 


%d (True) 


gd (False) \n", 


%d\n 


XEY) ; 


“&” 与 “&&” 运 算 符 操作 示例 


图 2-5 在 VC++ 中 执行 代码 清单 2-5 的 运行 结果 


“&&” 是 逻辑 操作 符 (与) ， 它 的 操作 数 是 布尔 型 ; 而“&” 是 位 操作 符 (与 ) ， 其 操作 数 是 位 序列 。 它 们 之 间 的 


sizeof (x && y) ) ; 


\n", x&&y) ; 


因为 变量 x 与 变量 y 都 不 为 0%， 所 以 执行 语句 “if (x&&y)“ 


XEEY) ; 


sizeof (x & y) ) ; 


时 返回 1。 而 当 执 行 “x&y” 


C\Windows\system32\cmd.exe 


izeof Cx && vy>: 

i¢tTrue> 
izeof 《x & vy): 4 
1100 


&& uv : 


和 yy : 


1 


区 别 如 代码 清单 2-6 所 示 。 


( 即 1101&1100) 时 ， 相 应 的 位 之 间 逐 一 进行 逻辑 运算 (与 ) ， 因 


图 2-6 ”在 VC++ 中 执行 代码 清单 2-6 的 运行 结果 
建议 16: 表达 式 的 设计 应 该 兼顾 效率 与 可 读 性 
C 语 言 中 的 表达 式 相对 其 他 语言 来 潮 要 复杂 得 多 ， 本 节 将 重点 讨论 运算 竺 的 优先 级 及 设计 表达 式 的 相关 注意 事项 ， 


建议 16-1: 尽量 使 用 复合 赋值 运算 符 


此 所 得 到 的 结果 为 1100。 


C 语 言 不 但 提供 了 最 基本 的 赋值 运算 符 “=”， 而且 为 了 简化 程序 并 提高 编译 效率 ， 还 允许 在 赋值 运算 符 “=” 之 前 加 上 其 他 运算 符 ， 这 样 就 构成 了 复合 赋值 运算 符 ( 即 /=、*=、%=、+=、-=、 


a/=b; /* 等 价 于 a=a/b; */ 
| /* 等 价 于 a=a*b; */ 
asgs=b; /* 等 价 于 a=a%b; */ 
at+=b; /* 等 价 于 a=atb; */ 
a-=b; /* 等 价 于 a=a-b; */ 
a<<=b; /* 等 价 于 a=a<<b; */ 
a>>=b; /* 等 价 于 a=a>>b; */ 
ag=b; /* 等 价 于 a=a&b; */ 
a^=b; /* 半价 于 ea 人 by */ 
al=b; /* 等 价 于 a=alb; */ 
a+=2+1; /* 等 价 于 a=a+ (2+1) ; 


人 


人 ^= 与 |=) 。 示 例 代 码 如 下 : 


wa 


a/=2*10-5; /* 等 价 于 a=a/ (2*10-5) ; 


本 


对 于 表达 式 a/=b 与 a=a/b， 有 读者 会 问 ， 它 们 两 者 之 间 究 竟 有 什么 区 别 呢 ? 


答案 很 简单 ， 对 于 a=a/b，a 需 要 求 值 两 次 ; 而 对 于 a/=b，a 仅 需要 求 值 一 次 。 一 般 来 说 ， 这 种 区 别 对 程序 的 运行 没有 多 大 影响 。 编 译 器 一 般 会 进行 优化 ， 使 两 种 表达 式 的 运行 效果 一 样 。 


当然 ， 也 有 例外 的 情况 ， 这 时 编译 器 无 法 进行 优化 。 当 表达 式 作为 函数 的 返回 值 时 ， 函 数 就 会 被 调用 两 次 ， 例 如 : 


int f (int x) 

{ 
return x; 

i 

int main (void) 

{ 
int a[10] = {0}; 
int x = 2; 
a[lf (x) + 1] += 1; 
aflf (x} + 1] = a[f (x) +1) +1; 
return 0; 


在 上 面 的 代码 中 ， 由 于 语句 “alf (x) +1]=alf (x) +1+1” 是 调用 函数 ， 编 译 器 并 不 能 确定 每 次 函数 调用 都 返 


回 


相同 的 值 ， 所 以 编译 器 对 此 也 无 能 为 力 ， 无 法 进行 优化 ， 因 此 只 好 乖乖 地 调用 两 次 函 


数 ; 而 语句 “a[f (x) +1]+=1” 则 只 调用 一 次 函数 。 
上 面 的 代码 在 Microsoft Visual Studio 2010 集 成 开发 环境 VC++ 的 Debug 模 式 下 将 生成 如 下 汇编 代码 : 
a[lf (x) + 1] += 1; 
013F3763 mov eax, dword ptr [ebp-3Ch] 
013F3766 push eax 
013F3767 call 三 (13F11DBh) 
013F376C add esp, 4 
013F376F lea ecx, [ebpteax*4-2Ch] 
013F3773 mov dword ptr [ebp-104h], ecx 
013F3779 mov edx, dword ptr [ebp-104h] 
013F377F mov eax, dword ptr [edx] 
013F3781 add eax, 1 
013F3784 mov ecx, dword ptr [ebp-104h] 
013F378A mov dword ptr [ecx], eax 
alf (a + 1] = a (2) 1] #1 
013F378C mov eax, dword ptr [ebp-3Ch] 
013F378F push eax 
013F3790 call f (13F11DBh) 
013F3795 add 25B5 4 
013F3798 mov esi, dword ptr [ebpteax*4-2Ch] 
013F379C add esi, 1 
013F379F mov ecx, dword ptr [ebp-3Ch] 
013F37A2 push ecx 
013F37A3 call 三 (13F11DBh) 
013F37A8 add esp, 4 
013F37AB mov dword ptr [ebpteax*4-2Ch], esi 


从 上 面 的 汇编 代码 中 可 以 很 清楚 地 看 到 两 者 之 间 的 区 别 ， 使 用 普通 的 赋值 运算 符 会 加 大 程序 的 开销 ， 从 而 使 程序 的 效率 降低 。 因 此 ， 如 果 能 确定 表达 式 中 不 含 具有 副 作 


么 应 该 尽量 使 用 复合 赋值 运算 符 来 代 蔡 普 通 的 赋值 运算 符 ， 不 过 一 定 要 注意 程序 的 可 读 性 。 


建议 16-2: 尽量 避免 编写 多 用 途 的 、 太 复杂 的 复合 表达 式 


C 语 言 中 的 复合 表达 式 是 指 如 a=b=c=0 这 样 的 表达 式 ， 它 不 仅 书写 简洁 ， 还 可 以 提高 编译 效率 ， 所 以 在 专业 的 C 程 序 中 经 常 可 以 看 到 。 接 下 来 看 这 样 一 个 例子 : 


的 元 素 (如 上 面 的 函数 f{) ， 那 


int a=10; 
at+=a-=a*=a; 
Printf (NT ah 了 


有 过 面试 经 历 的 读者 看 上 面 的 代码 应 该 比较 眼熟 ， 笔 者 也 曾经 见 过 多 家 企业 将 本 题 作为 面试 题 ， 那 么 a 的 值 究竟 应 该 是 多 少 呢 ? 


由 于 赋值 运算 符号 是 从 右 向 左 结合 的 ， 因 此 可 以 将 表达 式 写 成 如 下 形式 : 


a+t=a-=a*=a; 等 价 于 a=a+ (a-=a*=a) ; 等 价 于 a=a+ (a=a- (a*=a) ) ; 等 价 于 a=a+ (a=a- (a=a*a) ) ; 


根据 表达 式 a=a+ (a=a- (a=a*a) ) ， 可 以 将 其 拆 成 如 下 3 步 分 别 进行 计算 : 


a=a*a; // a 等 于 100 
a=a-a; // a 等 于 0 
a=ata; // a 还 是 等 于 0 


因此 ， 表 达 式 a+=a-=a*=a 所 得 到 的 结果 为 0。 


从 上 面 的 示例 可 以 看 出 ， 虽 然 复合 表达 式 可 以 提高 编译 效率 ， 但 是 太 复杂 的 复合 表达 式 就 适得其反 了 。 同 时 ， 还 应 该 避免 编写 有 多 用 途 的 复合 表达 式 ， 例 如 : 


d= (a=b+c) *e; 


该 表达 式 既 求 a 的 值 又 求 d 的 值 ， 应 该 将 其 拆 分 为 两 个 独立 的 语句 ， 代 码 如 下 : 


建议 16-3: 尽量 避免 在 表达 式 中 使 用 默认 的 优先 级 


在 C 语 言 中 ， 运 算 符 的 优先 级 如 表 2-1 所 示 。 


表 2-1 CC 语言 中 运算 符 的 优先 级 表 


优先 级 


[> 


CN 


_ 0 | 数组 F 标 如 a10 
| . | ”用 于 直接 使 用 结构 和 联合 ， 如 employee age 

用 于 结构 和 联合 指针 ， 如 employee->age 

= | 人 本 
强制 类 型 转换 

We 拓 1 
指针 取舍 
了 
CT 
| -| 位 取 
| 和 
-| | 


从 左 到 右 


从 右 到 左 


从 左 到 右 


从 左 到 右 


从 左 到 右 


从 左 到 右 


优先 级 描述 结合 方向 
二 从 左 到 右 

8 按 位 与 从 左 到 右 
9 位 从 左 到 右 
10 从 左 到 右 
11 && 从 左 到 右 
12 逻辑 或 从 左 到 右 
中 条 件 运算 符 ， 如 y=x=>0?1:0 从 右 到 左 


取 模 后 赋值 
从 右 到 左 


14 


me 
A : > > 1 


按 位 与 后 赋值 
按 位 异 或 后 赋值 


2 


按 位 或 后 赋值 
逗号 运算 符 ， 例 如 : 表达 式 1. 表达 式 2. 表达 式 3 从 左 到 右 


15 


> 
ll 


虽然 C 语 言 中 的 运算 符 都 有 自己 的 优先 级 别 ， 但 是 为 了 提高 程序 的 可 读 性 ， 防 止 阅读 程序 时 产生 误解 ， 防 止 因 默认 的 优先 级 与 设计 思想 不 符 而 导致 程序 出 错 ， 我 们 应 该 尽量 避免 使 用 默认 的 优先 级 。 如 
果 代 码 行 中 的 运算 符 比较 多 ， 应 当 用 括号 明确 表达 式 的 计算 顺序 ， 从 而 避免 采用 默认 的 运算 符 优先 级 。 


来 看 下 面 的 示例 代码 : 

i (1 地 站 (ae 可】 
/* 处 理 代码 */ 

i 

if ((alb) < (cgd) 
/* 处 理 代码 */ 


在 上 面 的 代码 中 ， 我 们 用 括号 来 明确 表达 式 的 计算 顺序 ， 使 程序 看 起 来 非常 直观 ， 具 有 良好 的 可 读 性 。 现 在 ， 我 们 采用 默认 的 运算 符 优先 级 来 改写 上 面 的 代码 : 


if (albg&&gag&c) 
/* 处 理 代码 */ 
if (alb<cg&d) 


/* 处 理 代码 */ 


根据 表 2-1 的 运算 符 优先 级 原则 ，“alb&8&a&c” 等 价 于 ”(alb) && (a&c) ”,， 第 一 个 if 语 句 “if (alb&&a&c) ”不 会 出 错 ， 但 语句 却 不 易 理解 ， 再 来 看 第 二 个 if 语 句 “if (alb<c&d) ”, 因 
为 “<” 运 算 符 的 优先 级 比 “|” 与 “&” 运 算 符 高 ， 所 以 “alb<c&d” 等 价 于 “a| (b<c) &d”， 这 就 造成 了 判断 条 件 出 错 。 


最 后 还 需要 说 明 的 是 ， 除 了 可 以 通过 括号 的 方式 来 明确 表达 式 的 计算 顺序 ， 避 免 使 用 默认 的 运算 符 优先 级 ， 还 需要 遵循 表达 式 简 洁 原 则 ， 尽 量 避 免 在 表达 式 中 把 不 同类 型 的 操作 符 混合 起 来 。 


第 3 章 ， 程 序 控制 语句 应 该 保持 简洁 高 


同 其 他 程序 设计 语言 一 样 ，C 语 言 也 提供 三 种 基本 流程 控制 结构 : 顺序 结构 、 选 择 结构 与 循环 结构 。 从 执行 方式 上 看 ， 从 第 一 条 语句 到 最 后 一 条 语句 完全 按 顺序 来 执行 的 ， 称 为 顺序 结构 ; 若 在 程序 执 
行 过 程 当中 ， 根 据 用 户 的 输入 或 中 间 结 果 去 选择 执行 若干 不 同 的 任务 ， 则 称 为 选择 结构 ; 如 果 在 程序 的 某 处 ， 需 要 根据 某 项 条 件 重复 地 执行 某 项 任务 若干 次 或 直到 满足 或 不 满足 某 条 件 为 止 ， 这 就 构成 循环 


壕 


建议 17: if 语句 应 该 尽量 保持 简洁 ， 减 少 谋 套 的 层 数 


C89 指 明 ， 编 译 程序 必须 最 少 支持 15 层 嵌 套 ，C99 把 限度 提升 到 127 层 。 实 际 上 ， 多 数 编译 器 程序 支持 远大 于 15 层 嵌 套 的 if。 虽 然 如 此 ， 但 我 们 为 了 使 if 语 句 保持 简洁 与 可 读 性 ， 应 该 尽量 减少 说 套 的 层 


建议 17-1: 先 处 理 正常 情况 ， 再 处 理 异常 情况 


我 们 在 编写 代码 时 ， 首 
后 面 。 这 样 ， 不 仅 符合 我 们 平时 的 逻辑 思维 习惯 ， 同 时 这 对 代码 的 可 读 性 和 性 能 也 很 


原则 就 是 要 使 正常 情况 的 执行 代码 清晰 ， 确 认 那 些 不 常 发 生 的 异常 情况 处 理 代码 不 会 遮掩 正常 的 执行 路 径 。 


也 就 是 说 ， 我 们 应 该 把 正常 情况 的 处 理 放 在 if 后 面 ， 而 不 要 放 在 else 


看 要 。 例 如 ， 下 面 的 代码 是 对 学 生 的 成 绩 及 格 与 不 及 格 进行 判断 : 


if (grade>=60) 
/* 处 理 成 绩 及 格 的 学 生 */ 
i if (grade>=30&&grade<60) 
/* 处 理 成 绩 大 于 等 于 30， 并 且 小 于 60 的 学 生 */ 


else 


/* 处 理 成 绩 30 以 下 的 学 生 */ 


这 样 的 代码 ， 不 仅 看 起 来 很 符合 我 们 平时 的 逻辑 思维 习惯 ， 而 且 if 语 句 在 做 判断 时 ， 正 常情 况 一 般 比 异常 情况 发 生 的 概率 更 大 (否则 就 应 该 把 异常 和 正常 调 过 来 了 ) ， 即 及 格 的 学 生 多 于 不 及 格 的 学 生 。 


如 果 把 执行 概率 更 大 的 代码 放 到 后 面 ， 也 就 意味 着 if 语句 将 进行 多 次 无 谓 的 比较 ， 如 下 面 的 代码 所 示 : 


if (grade<30) 

/* 处 理 成 绩 30 以 下 的 学 生 */ 
else if (grade>=30&&grade<60) 

/* 处 理 成 绩 大 于 等 于 30， 并 且 小 于 60 的 学 生 */ 
else 


/* 处 理 成 绩 及 格 的 学 生 */ 
} 


因为 及 格 的 学 生 总 是 多 于 不 及 格 的 学 生 ， 所 以 在 上 面 的 代码 中 ，if 语 句 将 进行 多 次 无 谓 的 比较 ， 同 时 也 难以 理解 。 


建议 17-2: 避免 “悬挂 ”的 else 


对 于 “最 挂 ”的 else 这 个 问题 ， 或 许 大 家 都 已 经 了 解 甚 至 熟知 了 。 尽 管 如 此 ， 但 在 平时 编码 中 还 是 会 有 许多 菜鸟 和 老手 在 此 为 程序 埋 下 Bug 的 种 子 ， 如 下 面 的 示例 代码 所 示 : 


#include <stdio.h> 
int main (void) 


{ 


int a=30; 
int b=31; 
int c=7; 
int x=0; 
if (a>b) 
if (b<c) 
X=1; 
else 
X=-1; 
printf ("“%d\n", x) ; 


return 0; 


上 面 的 代码 虽然 看 起 来 比较 简洁 ， 但 却 给 程序 带 来 致命 性 错误 ， 同 时 这 种 写作 方式 也 是 许多 老手 所 崇拜 的 (if 语句 后 省 略 掉 花 括号 人 }) 。 


在 上 面 的 这 段 代码 中 ， 我 们 的 本 意 应 该 有 两 种 主要 情况 : a> b 与 a<=b。 如 果 满 足 条 件 a>b， 我 们 将 继续 判断 条 件 b<c， 如 果 满 足 条 件 b<c， 则 将 1 赋 给 变量 x; 如果 ; 


然而 实际 情况 并 非 如 此 ， 这 段 代 码 所 做 的 与 我 们 的 意图 相去 甚 远 。 其 根本 原 
if (b<c) 进行 配对 ， 而 并 非 与 f (a>b) 进行 配对 ， 所 以 变量 x 的 原 值 没有 变 ， 依 然 还 是 0。 


为 了 使 大 家 能 够 更 加 清楚 地 看 到 “悬挂 ”的 else 所 产生 的 原 


以 及 带 来 的 问题 ， 我 们 可 以 通过 给 if/else 语 句 加 上 “{}”， 写 成 如 下 等 价 形式 : 


足 条 件 a< =b， 则 直接 将 -1 赋 给 变 


就 在 于 C 语 言 中 有 这 样 一 条 规则 : else 始 终 与 同一 对 括号 内 最 近 的 未 匹配 的 if 相 结合 。 根 据 这 条 规则 ， 代 码 中 的 else 应 该 与 


#include <stdio.h> 
int main (void) 


{ 


int a=30; 
int b=31; 
int c=7; 
int x=0; 
if (a>b) 
{ 
if (b<c) 
{ 
X=1; 
} 
else 
{ 
ME 


} 
printf (GD ¥) 3 
return 0; 


现在 ， 大 家 就 能 够 很 清楚 地 看 到 这 个 else 到 底 与 谁 匹配 了 。 由 此 可 以 看 出 ， 不 论 是 菜鸟 还 是 老手 ， 在 什么 时 候 都 不 能 够 偷懒 ， 还 是 老 老实 实地 把 “{” 加 上 ， 这 样 就 不 会 让 我 们 迷糊 了 。 正 确 的 写法 如 下 


面 的 代码 所 示 : 


#include <stdio.h> 
int main (void) 
{ 

int a=30; 

int b=31; 

int c=7; 


printf ("“%d\n", x) ; 
return 0; 


现在 ,代码 中 的 else 可 以 正确 地 与 第 一 个 if (a>b) 相 结合 了 ， 即 使 它 离 第 二 个 if (b<c) 更 近 也 是 如 此 。 因 


1 


宏 定 义 的 方式 来 能 达到 类 似 的 效果 ， 如 下 面 的 示例 代码 所 示 : 


除 此 之 外 ， 有 些 C 程 序 员 也 通过 使 


变量 x 的 结果 正 是 我 们 所 期 望 的 -1。 


#include <stdio.h> 
#define IF ‘在 
#define THEN ) { 
#define ELSE else { 
#define END } 
int main (void) 
{ 
int a=30; 
int b=31; 
int c=7; 
int x=0; 
IF a>b 
THEN IF b<c 
THEN x=1; 
END 
END 
END 
ELSE 
X=-1; 
END 
END 
printf ("“%d\n", x) ; 
return 0; 


品 
里 


建议 17-3: 避免 在 if/else 语 句 后 面 添加 分 号 “; “ 


在 C 语 言 中 ， 只 有 分 号 “; ”组 成 的 语句 称 为 空 语句 。 空 语句 是 什么 也 不 执行 的 语句 ， 常 常 被 
致意 外 的 运算 结果 ， 如 下 面 的 示例 代码 所 示 : 


然 这 样 也 可 以 避免 “悬挂 ”的 else 这 个 问题 ， 但 是 这 样 的 代码 却 很 难 读 懂 ， 尤 其 会 给 后 来 的 代码 维护 人 员 带 来 麻烦 ， 所 以 我 们 不 建议 大 家 这 样 做 。 


来 作为 空 循环 体 。 如 果 你 不 小 心 在 if/else 语 句 后 面 添加 了 分 号 “; ” ， 那 么 程序 将 很 容易 违背 你 的 意愿， 


int main (void) 


X++; 
printf ("%d\n", x) ; 
return 0; 


在 上 面 的 代码 中 ， 语 句 x++ 并 不 是 在 “if (x<0) ”为 真 的 时 候 才 被 调用 ， 而 是 任何 时 候 都 会 被 调 


“; ”上 。 我 们 知道 ， 在 C 语 
因为 编译 器 会 把 这 个 


其 实 ， 问 题 就 出 在 if 语句 后 面 的 分 号 中 ， 分 号 预示 着 一 条 语句 的 结 


分 号 ， 但 如 果 你 不 小 心 添加 了 分 号 ， 编 译 器 并 不 会 提示 出 错 。 


用 ， 所 以 最 后 变量 x 的 值 为 2。 这 究竟 是 怎么 回 事 呢 ? 
尾 。 但 值得 注意 的 是 ， 并 不 是 每 条 C 语 言语 句 都 需 


分 号 解析 成 一 条 空 语句 ， 即 上 面 的 代码 等 价 于 下 面 的 代码 : 


分 号 作为 结束 标志 。 比 如 ，if 语 句 的 后 面 就 并 不 需要 


int main (void) 
{ 

int x=1; 

if (x<0) 

{ 


} 

X++; 

Printf ("dW Ry 3 
return 0; 


就 会 导致 结果 与 预想 的 相差 很 远 。 


其 实 ， 这 种 手 误 性 错误 是 我 们 很 容易 犯 的 ， 往 往 一 不 小 心 多 写 了 一 个 分 号 ， 
心 多 写 的 分 号 造成 的 误解 ， 如 下 面 的 示例 代码 所 示 : 


因此 ， 建 议 大 家 使 


NULL 来 蔡 代 空 语 句 ， 这 样 做 可 以 明显 地 | 


区 分 真正 必需 的 空 语句 和 不 小 


int main (void) 
{ 
int x=1; 
if (x<0) 
NULL; 
区 +; 
printf ("“%d\n", x) ; 
return 0; 


建议 17-4: 对 深层 嵌 套 的 if 语 句 进行 重 构 


在 代码 中 ， 如 果 某 个 函数 的 if 语 句 谋 套 太 深 ， 为 了 程序 的 可 读 性 、 可 维护 性 与 效率 ， 我 们 应 该 尽量 想 办 法 进行 


看 构 ， 以 减少 if 语句 的 嵌 套 层 数 ， 如 下 面 的 示例 代码 所 示 : 


int main (void) 


int x=0; 
int a=1; 
int b=3; 
int c=5; 
int d=7; 
if (a<b) 


x++; 
if (a>d) 
{ 


} 


X=d; 


} 
Printf ("Sa m3 
return 0; 


i 


在 上 面 这 个 简单 的 示例 代码 中 ,我 们 使 用 了 4 层 if 嵌 套 。 为 了 减少 程序 中 if 语 句 的 谋 套 层 数 ， 我 们 首先 能 够 想到 的 办 法 就 是 可 以 通过 重复 检测 条 件 中 的 某 一 部 分 来 简化 谋 套 的 if 语 句 ， 如 下 面 的 示例 代码 所 


示 : 


int main (void) 
{ 
int x=0; 
int a=1; 
int b=3; 
int c=5; 
int d=7; 
if (a<b) 
{ 
x+=b; 
if (b<c) 
{ 
X+=C; 


} 
bs 
if (a<bg&gb<c&&c<d) 


X++; 
if (a>d) 
{ 

X=d; 
} 


} 
printf ("%d", x) ; 
return 0; 


通过 上 面 的 代码 ， 我 们 可 以 清楚 地 看 到 通过 重复 检测 条 件 中 的 某 一 部 分 来 简化 嵌 套 的 if 语 句 的 办 法 并 不 能 无 偿 地 减少 说 套 层 数 。 同 时 ， 作 为 减少 谋 套 层 数 的 代价 ， 必 须 容忍 使 用 一 个 更 复杂 的 判断 。 也 就 
是 说 ， 虽 然 这 样 减少 了 if 语 句 的 谋 套 层 数 ， 但 增加 了 一 些 复杂 的 判断 ， 让 我 们 有 点 得 不 偿 失 的 感觉 。 


既然 我 们 对 通过 重复 检测 条 件 中 的 某 一 部 分 来 简化 嵌 套 的 if 语 句 的 办 法 不 是 很 满意 ， 那 么 我 们 还 可 以 使 用 if/break 块 来 简化 if 语 句 的 嵌 套 


数 。 上 面 的 示例 代码 采用 if/break 块 重 构 后 如 下 所 示 : 


int main (void) 
{ 
int x=0; 
int a=1; 
int b=3; 
int c=5; 
int d=7; 
dof{ 
if (a>=b) 
break; 
x+=b; 
if (b>=c) 
break; 
x+=C; 
if (c>=d) 
break; 
X++; 
if (a<=d) 
break; 
Xx=d; 
} while (false) ; 
Printf ("Sd", x) ; 
return 0; 


由 


复 检 测 条 件 中 的 某 一 部 分 来 简化 让 套 的 if 语 句 的 办 法 ，if/break 块 真正 地 实现 了 逻辑 的 扁平 化 ， 减 少 了 if 语句 的 让 套 层 数 ， 从 而 使 代码 看 起 来 比较 清晰 ， 增 加 了 程 
加 复杂 的 条 件 判断 ， 从 而 可 以 避免 因为 重 构 而 导致 的 if 条 件 出 错 。 当 然 ， 你 还 可 以 使 用 它 的 另外 两 个 相似 的 if/return 和 if/goto 块 来 达到 同样 的 效果 ， 但 这 种 方法 唯 


从 上 面 的 代码 可 以 看 出 ， 相 对 于 通过 
序 的 可 读 性 。 与 此 同时 ， 该 方法 还 不 会 增 
一 的 缺陷 就 是 破坏 了 程序 的 内 聚 性 。 


除了 上 面 的 两 种 方法 之 外 ， 我 们 还 可 以 通过 把 代码 分 割 开 来 ， 把 深层 嵌 套 的 i 放 各 句 抽取 出 来 放 进 单独 的 函数 中 。 这 样 ， 不 仅 减少 了 if 语句 的 庶 套 层 数 ， 同 时 ， 一 个 好 的 函数 名 对 代码 也 具有 自我 注解 的 作 
， 在 一 定 程度 上 也 可 以 提高 程序 的 可 读 性 。 但 这 种 方法 与 前 面 的 方法 一 样 ， 程 序 罗 辑 的 复杂 度 依然 存在 ， 甚 至 更 复杂 。 


因此 ， 如 有 可 能 ,我 们 应 该 选择 完全 重新 设计 深层 嵌 套 的 代码 。 在 通常 情况 下 ， 如 果 程 序 中 存在 着 比较 复杂 的 逻辑 代码 ， 就 说 明 你 还 没有 充分 地 理解 程序 ， 从 而 无 法 简化 它 。 所 以 对 程序 员 来 说 ,， 深 
吝 套 的 if 语 句 也 是 一 个 警告 ， 它 说 明 你 要 么 想 办 法 进行 重 构 ， 要 么 重新 设计 该 程序 。 


用 


建议 18: 谨慎 0 值 比较 


对 于 0 值 比较 ， 看 起 来 似乎 很 简单 ， 但 实际 情况 并 非 如 此 ， 笔 者 曾经 见 过 许多 面试 的 程序 员 对 此 题 的 回答 模棱两可 。 下 面 ， 我 们 就 来 讨论 一 下 如 何 正确 地 对 各 类 型 的 数据 进行 0 值 比较 。 


建议 18-1: 避免 布尔 型 与 0 或 1 进行 比较 


布尔 类 型 是 计算 机 科学 中 的 逻辑 数据 类 型 ， 它 只 提供 两 种 原始 值 : true ( 真 ) 和 false ( 假 ) 。 通 常情 况 下 ， 零 值 为 “ 假 ”， 任 意 非 零 值 都 是 “ 真 ”。 


在 C99 的 标准 中 ， 增 加 了 一 个 内 置 的 布尔 类 型 Bool， 可 以 存储 值 1 (true) 和 0 (false) 。 同 时 ， 为 了 与 C++ 兼容 ，C99 还 在 <stdbool.h> 文 件 中 定义 了 宏 bool、true 与 false， 从 而 可 以 使 程序 员 写 出 C 
与 C++ 相互 兼容 的 程序 。 


然而 在 C99 之 前 ( 即 C89 中 ) ， 语言 的 标准 并 没有 提供 布尔 类 型 ， 但 这 不 意味 着 C89 就 不 能 表示 布尔 值 的 概念 。 
。 但 是 ， 任 意 非 零 值 代表 为 true ( 真 ) ， 这 样 就 会 带 来 了 一 个 严 


与 ! ) 以 及 条 件 声明 (if 与 while) 等 都 以 任意 非 零 值 代表 true ( 真 ) ， 零 值 代表 false ( 假 ) 


其 实 ，(C 语 言 中 的 所 有 关系 运算 (>、>=、 
的 问题 ， 


RS 


因 


而 true 的 值 究竟 是 什么 并 没有 一 个 统一 的 标准 。 例 如 ， 在 Visual C+ + 中 将 true 定 义 为 1， 而 在 Visual Basic 中 则 将 true 定 义 为 -1。 


因此 ， 我 们 将 布尔 类 型 的 比较 代码 写成 如 下 形式 显然 是 不 行 的 : 


<=、== 与 ! =) 、 逻 辑 运 算 (&&、|| 
为 true 由 一 个 特定 的 值 来 表示 ， 然 


if ( flag 一 1 ) /* 表示 flag 为 真 */ 
if ( flag = 一 0) /* 表示 flag 为 假 */ 


上 面 的 代码 虽然 看 起 来 是 正确 的 ， 但 不 具备 很 好 的 可 移植 性 。 当 然 ， 我 们 也 可 以 通过 宏 定义 的 形式 来 写成 如 下 形式 : 


if ( flag == true )  /* 表示 flag 为 真 */ 
if ( flag == false ) /* 表示 flag 为 假 */ 


上 面 的 代码 虽然 可 读 性 较 好 ， 但 同样 也 会 


因为 true 或 false 的 不 同 定义 值 而 出 错 。 


因此 ， 正 确 的 写法 应 该 如 下 : 


i£f ( flag } 
if ( ! flag ) 


/* 表示 flag 为 真 */ 
/* 表示 flag 为 假 */ 


这 样 就 避免 了 上 面 的 所 有 可 能 ， 并 且 使 代码 看 起 来 也 比较 简洁 。 


建议 18-2: 整 型 变量 应 该 直接 与 0 进行 比较 


相对 于 其 他 数据 类 型 ， 整 型 变量 与 零 值 比 较 就 简单 多 了 。 例 如 整 型 变量 |， 它 与 零 值 比较 的 标准 if 语 句 如 下 : 


if (i == 0) 
if (i ! = 0) 


切忌 , 干 万 不 可 


模仿 布尔 型 变量 的 风格 而 写成 如 下 形式 : 


P| 
hE 


上 面 的 代码 很 容易 会 让 人 误 以 为 变量 是 布尔 型 变量 。 


建议 18-3: 避免 浮 点 变量 用 “==” 或 “! =” 与 0 进行 比较 


其 实 ， 关 于 浮 点 数 的 比较 ， 早 在 建议 3-4 中 就 做 了 比较 详细 的 介绍 ， 本 节 将 继续 向 大 家 做 一 些 实 


性 的 讲解 。 


我 们 知道 ， 在 C 语 言 中 ， 无 论 是 float 还 是 double 浮 点 数 类 型 的 变量 ， 都 有 其 精 
在 计算 机 中 就 可 能 变 成 相等 的 ， 如 下 面 的 示例 代码 所 示 : 


度 的 限制 。 


对 于 超出 精度 限制 的 浮 点 数 ， 计 算 机 会 把 它们 的 精度 之 外 的 小 数 部 分 截断 。 因 


此 ， 原 本 就 不 相等 的 两 个 浮 点 数 


int main (void) 
{ 
float a=10.22222225; 
float b=10.22222229; 
if (a=b) 
printf ("a==b \n") ; 
else 


printf ("a!l =b\n") ; 


return 0; 


在 上 面 的 代码 中 ， 从 数学 上 讲 ，a 和 b 是 不 相等 的 ， 但 是 在 32 位 计算 机 中 它们 却 是 相等 的 ， 因 


数字 进行 比较 ， 而 应 该 设法 把 它们 转化 成 “>” 或 “<=” 的 形式 。 


如 果 两 个 同 符号 的 浮 点 数 之 差 的 绝对 值 小 于 或 等 于 某 一 个 可 接受 的 误差 EPSILON ( 即 精 


示 : 


此 程序 的 输出 结果 为 “a==b”。 由 此 可 见 ， 我 们 一 定 要 避免 将 浮 点 类 型 的 变量 直 


度 ) ， 就 认为 它们 是 相等 的 ， 否 则 就 是 不 相等 的 。 两 个 浮 点 数 x 与 y 是 否 相等 的 正确 的 比较 方式 如 下 


的 代码 所 


if ( fabs (x-y) <= EPSILON ) 
if ( fabs (x-y) > EPSILON ) 


// x 等 于 y 
// xX 不 等 于 y 


同 理 ， 浮 点 数 x 和 0 是 否 相等 的 正确 比较 方式 如 下 面 的 代码 所 示 : 


// x 等 于 0 
// xX 不 等 于 0 


if ( fabs (x) <= EPSILON ) 
if ( fabs (x) > EPSILON ) 


下 面 ， 为 了 加 深 大 家 的 理解 ， 我 们 来 看 一 个 完整 的 例子 ， 如 代码 清单 3-1 所 示 。 


代码 清单 3-1 浮 点 数 比较 示例 


#include <stdio.h> 

#include <math.h> 

#define EPSILON 0.000000001 

int main (void) 

{ 
double a = 10.22222225; 
double b = 10.22222222; 
double c 0.0000001; 
if ( fabs (a-b) <= EPSILON ) 


printf ("a: $%.12f == b: $2.12f, 
精度 为 $.12f \n", a, b，EPSILON) ; 


else 


printf ("es 212 | = bt .12F, 
精度 为 和 $.12f \n", a, b,，EPSILON) ; 


(fabs (c) <= EPSILON) 

printf ("c: .12f == 0， 精度 为 .12f \n",，c，EPSILON) ; 
else 

printf ("c: 名 .12f ! = 0， 精度 为 $.12f \n", c， EPSILON) ; 


return 0; 


代码 清单 3-1 的 运行 结果 如 图 3-1 所 示 。 


区 管理 员 : Visual Studio Command Prompt (2010) 


B :NC 323-1 
:18.222222258088 += bp:186.2222222286089。 精 度 为 6.0680080619606 


:8.088068108068 += 0.。 靖 度 为 6.80688608018660 


图 3-1 代码 清单 3-1 的 运行 结果 


建议 18-4: 指针 变量 应 该 用 “==” 或“! =” 与 NULL 进 行 比较 


在 C 语 言 中 ， 定 义 指针 变量 时 一 定 要 同时 初始 化 该 指针 变量 ， 如 下 面 的 示例 代码 所 示 : 


int* p = NULL; 


这 里 需要 特别 注意 的 是 ， 尽 管 NULL 的 值 与 0 相同 ， 但 是 两 者 意义 却 不 相同 。 因 此 ， 在 我 们 将 指针 变量 与 0 值 做 比较 的 时 候 ， 也 应 该 直接 用 “==” 或 “! =” 与 NULL 进 行 比较 。 例 如 ， 指 针 变量 p 与 0 值 
比较 的 标准 if 语 句 如 下 面 的 示例 代码 所 示 : 


if ( p=— NULL ) 
if ( p! = NULL ) 


这 样 通过 将 p 与 NULL 显 式 进行 比较 ， 从 而 强调 p 是 指针 变量 。 如 果 我 们 直接 将 指针 变量 p 与 0 值 进行 比较 ， 就 很 容易 让 人 误解 p 是 整 型 变量 ， 如 下 面 的 示例 代码 所 示 : 


if ( p==0 ) 
if ( pl =0 ) 


同 理 ， 如 果 写 成 下 面 这 种 形式 ， 就 很 容易 让 人 误解 p 是 布尔 变量 : 


建议 19: 避免 使 用 艇 套 的 “? :“ 


在 C 语 言 中 ，“? : ”运算 符 是 if/else 语 句 的 另外 一 种 表示 形式 ， 其 一 般 形 式 如 下 所 示 : 


Expl ? Exp2 : Exp3 


求 值 结果 作为 整个 问号 表 


其 中 ，Exp1、Exp2 与 Exp3 都 是 表达 式 。 程 序 首先 对 Exp1 求 值 ， 如 果 Exp1 的 值 为 真 时 ， 就 对 Exp2 求 值 并 将 其 求 值 结果 作为 整个 问号 表达 式 的 值 ; 否则， 就 对 Exp3 求 值 并 将 
达 式 的 值 。 


由 于 问号 表达 式 语法 的 简洁 性 ， 因 此 我 们 经 常 看 到 一 些 程序 员 在 做 判断 时 只 用 “? : ” ， 而 从 不 使 用 if/else 语 句 。 如 下 面 的 示例 代码 所 示 : 


unsigned ;int f ( int x) 


return x>=1? 1: 0; 


} 


很 显然 ， 相 对 于 if/else 语 句 ， 这 样 的 代码 看 起 来 更 加 简洁 明了 。 但 是 ， 如 果 我 们 嵌 套 使 用 “? : ”， 那 就 不 一 样 了 。 如 下 面 的 示例 代码 所 示 : 


unsigned int f (unsigned int x) 


return ( (x<=1) ? (1-x) : (x==4) ? 2: (x+1) )，; 
E 


在 上 面 的 代码 中 ， 谱 套 了 两 层 “? : ” ， 它 实际 等 效 于 下 面 的 代码 : 


unsigned int f (unsigned int x) 


unsigned temp; 
1£ (x = 1) 
{ 


if (x ! = 0) 
{ 
temp = 0; 
} 
else 
{ 
tom = 13 
} 
} 
else 
{ 
if (x = 4) 
{ 
temp = 2; 
} 
else 


temp = x+ Ti; 
} 


return temp; 


从 上 面 的 代码 中 可 以 看 出 ， 尽 管 谋 套 使 用 “? : ”可 以 使 代码 变 得 简洁 ， 但 代码 的 可 读 性 却 因此 降低 了 不 少 。 这 个 时 候 有 的 程序 员 或 许 会 说 ， 赃 套 使 用 “? : ”不 仅 使 代码 简洁 ， 更 重要 的 是 它 比 
if/else 语 句 能 够 产生 更 加 高 效 的 代码 。 但 实际 情况 并 非 如 此 ， 有 兴趣 的 读者 不 妨 试 一 试 下 面 的 代码 ， 对 两 者 做 个 比较 。 


unsigned int f (unsigned int x) 
{ 

unsigned temp; 

if (w= 1) 


temp = 0; 
if (x=—=0) 


temp = 1; 


return temp ; 


其 实 , 使 用 “? : ”运算 符 所 存在 的 问题 是 : 由 于 它 很 简单 ， 容 易 使 用 ， 看 起 来 好 像 是 产生 高 效 代码 的 理想 方法 。 因 此 ， 程 序 员 就 不 再 寻找 更 好 的 解决 方法 了 。 更 糟糕 的 是 ， 有 些 程序 员 会 将 if/else 语 
句 全 部 转换 为 “? : ”来 获得 所 谓 的 高 效 解决 方案 。 而 实际 上 “? : ”并 不 比 if/else 语 句 好 ， 它 们 所 产生 的 汇编 代码 也 基本 相同 。 


因此 ， 为 了 能 够 提高 程序 的 执行 效率 ， 我 们 应 该 将 时 间 花 在 寻求 可 替代 的 高 效 算法 上 ， 而 不 是 一 味 地 追求 以 某 个 稍微 不 同 的 方式 来 实现 同一 个 算法 上 。 例 如 ,我 们 可 以 将 上 面 的 代码 修改 成 下 面 这 种 更 
直接 的 实现 方法 : 


unsigned int f (unsigned int x) 


assert (x>=0 &&x<=4); 
if (x=—=1) 
{ 


return 0 ; 
} 
if (x=—=4) 
{ 


return 2 ; 


Teturn RR + 1 


甚至 ， 我 们 还 可 以 使 用 下 面 的 列表 方式 来 实现 上 面 的 示例 程序 ， 如 下 面 的 代码 所 示 : 


unsigned int f (unsigned int x) 

{ 
assert (x>=0 &g&x<=4);，; 
static const unsigned temp[] ={1, 0, 3, 4, 2 }; 
return temp[x] ; 


} 


建议 20: 正确 使 用 for 循 环 


C 语 言 提供 了 三 种 类 型 的 循环 控制 语句 : for 循 环 语句 、while 循 环 语句 和 do/while 循 环 语句 。 其 中 ，for 循 环 语句 的 一 般 形式 为 


for ( < 初始 化 >; < 条 件 表 达 式 >; < 增 量 > ) 


循环 体 语句 ; 


一 般 情况 下 ， 初 始 化 总 是 一 个 赋值 语句 ， 它 用 来 为 循环 控制 变量 赋 初 值 ; 条 件 表达 式 则 是 一 个 关系 表达 式 ， 它 决定 什么 时 候 退 出 循环 ;而 增 量 定义 循环 控制 变量 每 循环 一 次 后 按 什么 方式 变化 。 这 三 个 
部 分 之 间 用 分 号 “; ”分 割 开 来 。 


建议 20-1: 尽量 使 循环 控制 变量 的 取 值 采用 半 开 半 闭 区 间 写 ; 


从 功能 上 看 ,虽然 半 开 半 


站 


区 间 写 法 和 闭 区 间 写 法 的 功能 是 完全 相同 的 ， 但 相 比 之 下 ， 半 开 半 


站 


区 间 写 法 更 能 够 直观 地 表达 意思 ， 具 有 更 高 的 可 读 性 。 下 面 ， 我 们 就 通过 示例 代码 看 看 两 者 之 间 的 


多 


其 中 ， 闭 区 间 的 写法 示例 如 下 面 的 代码 所 示 : 


for ( i=0; i<=n-1; i++ ) 


/* 处 理 代码 */ 
在 上 面 的 代码 中 ，i 值 属于 闭 区 闻 写 法 ， 即 “0= <i<=n-1”， 起 点 到 终点 的 间隔 为 n-1， 循 环 次 数 为 n。 
半 开 半 闭 区 间 的 写法 示例 如 下 面 的 代码 所 示 : 


for ( i=0; ic i++ ) 


/* 处 理 代码 */ 


在 上 面 的 代码 中 ，i 值 属于 半 开 半 闭 区 间 写 法 ， 即 “0= <i<n”， 起 点 到 终点 的 间隔 为 n， 循 环 次 数 为 n。 


从 上 面 的 两 段 示 例 代 码 中 可 以 看 出 ， 尽 管 它们 的 功能 是 完全 相同 的 ， 但 相 比 之 下 ， 第 二 个 程序 示例 ( 半 开 半 闭 区 间 写 法 ) 具有 更 高 的 可 读 性 。 因 此 ， 在 for 循 环 中 ， 我 们 应 该 尽量 使 循环 控制 变量 的 取 值 


采用 半 开 半 闭 区 间 写 法 。 


当 


建议 20-2: 尽量 使 循环 体内 工作 量 达到 最 小 化 


我 们 知道 ，for 循 环 随 着 循环 次 数 的 增加 ， 会 加 大 对 系统 资源 的 消耗 。 如 果 你 写 的 一 个 循环 体内 的 代码 相当 耗费 资源 ， 或 者 代码 行 数 众多 (一般 来 说 循环 体内 的 代码 不 要 超过 20 行 ) ， 甚 至 超过 一 显示 
， 那 么 这 样 的 程序 不 仅 可 读 性 不 高 ， 而 且 还 会 让 你 的 程序 的 运行 效率 大 大 降低 。 这 个 时 候 ， 我 们 通常 可 以 通过 如 下 两 种 方法 进行 优化 。 


1) 重新 设计 这 个 循环 ， 确 认 这 些 操作 是 否 都 必须 放 在 这 个 循环 里 ， 并 仔细 考虑 循环 体内 的 语句 是 否 可 以 放 在 循环 体 之 外 ， 从 而 使 循环 体内 工作 量 最 小 化 ， 提 高 程序 的 时 间 效率 。 如 下 面 的 示例 代码 所 


很 显然 ， 在 上 面 的 代码 中 每 执行 一 次 for 循 环 ， 就 要 执行 一 次 “sum=tmp” 语 句 来 重新 为 变量 sum 进 行 赋值 ， 这 样 的 写法 很 浪费 资源 。 因 此 ， 我 们 完全 可 以 将 “sum=tmp” 语 句 放 在 for 语 句 之 后 ， 如 
下 面 的 示例 代码 所 示 : 


for (i=0; i<n; i++) 


tmp += i; 
} 
sum = tmp; 


这 样 ，“sum=tmp” 语 句 只 执行 一 次 ， 不 仅 可 以 提高 程序 执行 效率 ， 而 且 程序 也 具有 更 高 的 可 读 性 。 


2) 可 以 考虑 将 这 些 代码 改写 成 一 个 子 函 数 ， 在 循环 中 只 调用 这 个 子 函数 即 可 。 


建议 20-3: 避免 在 循环 体内 修改 循环 变量 


在 for 循 环 语句 中 ， 我 们 应 该 严格 避免 在 循环 体内 修改 循环 变量 ， 否 则 很 有 可 能 导致 循环 失去 控制 ， 从 而 使 程序 执行 违背 我 们 的 原意 ， 如 下 面 的 示例 代码 所 示 : 


for ( i=0; i<10; i++ ) 
{ 

i=10; 
} 


在 上 面 的 代码 中 ， 在 循环 体内 对 循环 变量 进行 赋值 之 后 ，for 循 环 中 止 执 行 ， 从 而 使 程序 执行 违背 我 们 的 原意 ， 更 严重 的 情况 会 给 程序 带 来 灾难 性 的 后 果 。 


建议 20-4: 尽量 使 逻辑 判断 语句 置 于 循环 语句 外 层 


徊 


一 般 情况 下 ,我们 应 该 尽量 避免 在 程序 的 循环 体内 包含 逻辑 判断 语句 。 当 循环 体内 不 得 已 而 存在 逻辑 判断 语句 ， 并 且 循 环 次 数 很 大 时 ， 我 们 应 该 尽量 想 办 法 将 逻辑 判断 语句 移 到 循环 语句 的 外 层 ， 从 而 


使 程序 减少 执行 逻辑 判断 语句 的 次 数 ， 提 高 程序 的 执行 效率 。 如 下 面 的 示例 代码 所 示 : 


for 《二 二 和 诗 芝 3 二 HH) 
{ 
if (condition) 
{ 
DoSomething () ; 


Dootherthing () ; 


在 上 面 的 代码 中 ， 每 执行 一 次 for 循 环 ， 都 要 执行 一 次 if 语句 判断 。 当 for 循 环 的 次 数 很 大 时 ， 执 行 多 余 的 判断 不 仅 会 消耗 系统 的 资源 ， 而 且 会 打 断 循环 “流水 线 ” 作 业 ， 使 得 编译 器 不 能 对 循环 进行 优化 
处 理 ， 降 低 程序 的 执行 效率 。 因 此 ， 我 们 可 以 通过 将 逻辑 判断 语句 移 到 循环 语句 的 外 层 的 方法 来 减少 判断 的 次 数 ， 如 下 面 的 代码 所 示 : 


if (condition) 
{ 
for (i=0; i<n; i++) 
{ 
DoSomething () ; 


} 
else 
i 


for (i=0; i<n; i++) 


Dootherthing () ; 
} 
} 


虽然 上 面 的 代码 没有 前 面 的 看 起 来 简洁 ， 但 却 使 程序 执行 逻辑 判断 语句 减少 n-1 次 ， 在 for 循 环 次 数 很 大 时 ， 这 种 优化 显然 是 值得 的 。 


最 后 还 需要 注意 的 是 ， 循 环 体 中 的 判断 语句 是 否 可 以 移 到 循环 体外 ， 要 视 程序 的 具体 情况 而 定 。 一 般 情况 下 ， 与 循环 变量 无 关 的 判断 语句 可 以 移 到 循环 体外 ， 而 有 关 的 则 不 可 以 。 


建议 20-5: 尽量 将 多 重 循环 中 最 长 的 循环 放 在 最 内 层 ， 最 短 的 循环 放 在 最 外 层 


在 多 重 for 循 环 中 ， 如 果 有 可 能 ， 应 当 尽 量 将 最 长 的 循环 放 在 最 内 层 ， 最 短 的 循环 放 在 最 外 层 ， 以 减少 CPU 跨 切 循环 层 的 次 数 。 如 下 面 的 示例 代码 所 示 : 


for (i=0; i<100; i++) 
i 
for ( j=0; j<5; j++ ) 


/* 处 理 代码 */ 


} 
} 


为 了 提高 上 面 代 码 的 执行 效率 ， 我 们 可 以 依照 这 条 建议 将 上 面 的 代码 修改 为 如 下 形式 : 


for ( j=0; j<5; j++ ) 
{ 


for (i=0; i<100; i++) 
{ 
/* 处 理 代码 */ 
} 
} 


这 样 ， 既 不 会 失去 程序 原 有 的 可 读 性 ， 同 时 也 提高 了 程序 的 执行 效率 。 


建议 20-6: 尽量 将 循环 嵌 套 控制 在 3 层 以 内 


有 研究 数据 表明 ， 当 循环 谋 套 超过 3 层 ， 程 序 员 对 循环 的 理解 能 力 会 极 大 地 降低 。 同 时 ， 这 样 程序 的 执行 效率 也 会 很 低 。 因 此 ， 如 果 代码 循环 说 套 超过 3 层 ， 建 议 重新 设计 循环 或 将 循环 内 的 代码 改写 成 


一 个 子 函 数 。 


建议 21: 适当 地 使 用 并 行 代码 来 优化 for 循 环 


在 实际 编程 中 ， 尽 量 把 长 的 有 依赖 的 代码 链 分 解 成 几 个 可 以 在 流水 线 执行 单元 中 并 行 执行 的 没有 依赖 的 代码 链 ， 如 下 面 的 示例 代码 所 示 : 


double num[100]; 
double sum=0; 

int i=0; 

for (i=0; i<100; i++) 
{ 


} 


sum += num[i]; 


很 显然 ， 在 上 面 的 代码 中 要 执行 100 次 for 循 环 语句 。 然 而 ， 对 于 这 样 的 代码 ， 我 们 可 以 使 用 分 解 成 多 路 的 形式 进行 优化 。 在 这 里 ， 我 们 选择 将 上 面 的 程序 分 解 成 4 路 ， 即 使 用 4 段 流水 线 浮 点 加 法 ， 浮 点 


加 法 的 每 一 个 段 占用 一 个 时 钟 周期 ， 从 而 保证 最 大 的 资源 利用 率 ， 如 下 面 的 示例 代码 所 示 : 


double num[100]; 
double sum=0; 
double suml=0; 
double sum2=0; 
double sum3=0; 
double sum4=0; 
int i=0; 
for (i=0; i<100; i+=4) 
{ 
suml += num[i]; 
sum2 += num[i+1]; 
sum3 += num[i+2]; 
sum4 += num[i+3]; 
} 


sum = sum4+sum3+sum2+suml; 


最 后 还 需要 说 明 的 是 ， 由 上 面 的 代码 可 以 看 出 ， 因 为 浮 点 数 的 精确 度 问 题 ， 在 一 些 情况 下 ， 这 些 优化 可 能 会 导致 意料 之 外 的 结果 。 但 在 大 部 分 情况 下 ， 最 后 结果 可 能 只 有 最 低位 存在 错误 。 
算 结果 正确 性 的 影响 不 大 。 


建议 22: 谨慎 使 用 do/while 与 while 循 环 


因此 ， 对 计 


前 面 已 经 说 过 ， 在 C 语 言 中 ， 循 环 控 制 语句 除 for 循 环 语句 之 外 ， 还 提供 另外 两 种 循环 控制 语句 : while 循 环 语句 和 do/while 循 环 语句 。 在 实际 应 用 中 ，for 循 环 语句 的 使 用 频率 最 高 ，while 循 环 语句 其 


次 ，do/while 循 环 语句 很 少 用 。 


建议 22-1: 无 限 循环 优先 选用 for (; ; ) ， 而 不 是 while (1) 


在 C 语 言 中 ， 最 常用 的 无 限 循环 语句 主要 有 两 种 : while (1) 和 for (; ; ) 。 从 功能 上 讲 ， 这 两 种 语句 的 效果 完全 一 样 。 那 么 ， 我 们 究竟 该 选择 哪 一 种 呢 ? 


其 实 ， 从 while 和 for 的 语义 上 来 看 ， 显 然 for (; ; ) 语句 运行 速度 要 快 一 些 。 按 照 for 的 语法 规则 ， 两 个 分 号 “; ”分 开 的 是 3 个 表达 式 。 现 在 表达 式 为 空 ， 很 自然 地 被 编译 成 无 条 件 的 跳 转 ( 即 无 条 件 
循环 ， 不 用 判断 条 件 ) 。 如 代码 for (; ; ) 在 Microsoft Visual Studio 2010 集 成 开发 环境 VC++ 的 Debug 模 式 下 将 生成 如 下 汇编 代码 : 


Eor (了 和 
00931451 jmp main+41h (931451h) 


相 比 之 下 ，while 语 句 就 不 一 样 了 。 按 照 while 的 语法 规则 ，while () 语句 中 必须 有 一 个 表达 式 (这 里 是 1) 判断 条 件 ， 生 成 的 代码 用 它 进行 条 件 跳 转 。 即 while 语 句 〈() 属于 有 条 件 循 环 ， 有 条 件 就 要 判 
断 条 件 是 否 成 立 ， 所 以 其 相对 于 for (; ; ) 语句 需要 多 几 条 指令 。 如 代码 while (1) 在 Microsoft Visual Studio 2010 集 成 开发 环境 VC+ + 的 Debug 模 式 下 将 生成 如 下 汇编 代码 : 


while (1) 

011RA1451 mov eax, 1 

011A1456 test eax, eax 

011A1458 je main+55h (11A1465h) 
011A1463 jmp main+41lh (11A1451h) 


根据 上 面 的 分 析 结 果 ， 很 显然 ，for (; ; ) 语句 指令 少 ,不 占用 寄存 器 ， 而 且 没 有 判断 、 跳 转 指令 。 当 然 ， 如 果 从 实际 的 编译 结果 来 看 ， 两 者 的 效果 常常 是 一 样 的 ， 因 为 大 部 分 编译 器 都 会 对 
while (1) 语句 做 一 定 的 优化 。 但 是 ， 这 还 需要 取决 于 编译 器 。 因 此 ， 我 们 还 是 应 该 优先 选用 for (; ; ) 语句 。 


建议 22-2: 优先 使 用 for 循 环 替 代 do/while 与 while 循 环 


在 C 语 言 中 ，while 循 环 与 do/while 循 环 的 区 别 在 于 : while 循 环 语句 先 测试 控制 表达 式 的 值 ， 再 执行 循环 体 ， 如 下 面 的 示例 代码 所 示 : 


unsigned int i=0; 
while (i<1000) 
{ 

i++; 

/* 处 理 程序 */ 


相 比 之 下 ，do/while 循 环 语句 则 先 执行 循环 体 ， 再 测试 控制 表达 式 的 值 ， 如 下 面 的 示例 代码 所 示 : 


unsigned int i=1000; 
do 
{ 

一; 

/* 处 理 程序 */ 


while (i>0) ; 


如 果 控 制 表 达 式 的 值 一 开始 为 假 ， 则 while 循 环 语句 的 循环 体 一 次 都 不 执行 ， 而 do/while 循 环 语句 的 循环 体 仍然 要 执行 一 次 再 跳出 循环 。 


在 实际 开发 环境 中 ， 无 论 是 do/while 与 while 循 环 ， 还 是 for 循 环 ， 它 们 之 间 都 是 可 以 相互 替换 的 。 但 从 代码 的 可 读 性 而 言 ， 建 议 优先 选用 for 循 环 ， 尤 其 面 对 多 层 循环 嵌 套 ，fo! 人 循环 的 代码 相 比 之 下 就 
更 易 污 懂 了 。 当 然 ， 如 果 在 循环 的 次 数 不 明 确 的 情况 下 ， 还 是 要 使 用 do/while 和 while 循 环 。 


建议 23: 正确 地 使 用 switchi 语 句 


相对 于 if 语 句 而 言 ，switch 语 句 可 以 更 方便 地 应 用 于 多 个 分 支 的 控制 流程 。C89 指 明 ， 一 个 switch 语 句 最 少 可 以 支持 257 个 case 语 句 ， 而 C99 则 要 求 至 少 支持 1023 个 case 语 句 。 然 而 ， 在 实际 开发 环境 
中 ,为 了 程序 的 可 读 性 与 执行 效率 ， 应 该 尽量 减少 switch 语 句 中 的 case 语 句 。 


除 此 之 外 ，switch 语 句 与 if 语 句 不 同 的 是 ，switch 语 句 只 能 够 测试 是 否 相 等 ， 因 此 ，case 语 句 后 面 只 能 是 整 型 或 字符 型 的 常量 或 常量 表达 式 ;而 在 if 语 句 中 还 能 够 测试 关系 与 逻辑 表达 式 。 


建议 23-1: 不 要 忘记 在 case 语 句 的 结尾 添加 breaki 语 


在 switch 语 句 中 ， 每 个 case 语 句 的 结尾 不 要 忘记 添加 break 语 句 ， 否 则 将 导致 多 个 分 支 重 十 。 当 然 ， 除 非 有 意 使 多 个 分 支 重 又 ， 这 样 可 以 免 去 break 语 句 。 下 面 我 们 来 看 一 个 实际 示例 ， 如 代码 清单 
所 示 。 


Wu 
1 
Dn 


代码 清单 3-2 ”switch 示 例 


#include <stdio.h> 
void print week (unsigned int day) ; 
void print week (unsigned int day) 
{ 
switch (day) 
{ 


case 1: 
printf ("Monday\n") ; 
break; 

Case 2: 
printf ("Tuesday\n") ; 
break; 

Case 3: 
printf ("Wednesday\n") ; 
break; 

Case 4: 
printf ("Thursday\n") ; 
break; 

Case 5: 
printf ("Friday\n") ; 
break; 

Case 6: 


printf ("Saturday\n") ; 


break; 


Case 7: 
printf ("Sunday\n") ; 
break; 

default: 
printf ("error\n") ; 
break; 


} 
} 


int main (void) 


print week (3) ; 
return 0; 


} 


在 代码 清单 3-2 中 ， 在 print week 函数 中 通过 switch 语 句 实现 根据 数字 输出 星期 名 称 的 功能 。 执 行 代码 清单 3-2， 程 序 将 输出 “Wednesday”。 


现在 ， 如 果 将 case 1~case 4 的 break 语 名 去掉， 如 代码 清单 3-3 所 示 ， 程 序 会 输出 什么 结果 呢 ? 


代码 清单 3-3 switch 去 掉 break 示 例 


void print week (unsigned int day) 


Switch (day) 
{ 


Case 1: 
printf ("Monday\n") ; 
Case 2: 
printf ("Tuesday\n") ; 
Case 3: 
printf ("Wednesday\n") ; 
Case 4: 
printf ("Thursday\n") ; 
CAse 5: 
printf ("Friday\n") ; 
break; 
Case 6: 
printf ("Saturday\n") ; 
break; 
Case 7: 
printf ("Sunday\n") ; 
break; 
default: 
printf ("error\n") ; 
break; 


} 
int main (void) 


print week (2) ; 
return 


在 代码 清单 3-3 中 ， 由 于 case 1~case 4 缺少 break 语 句 ， 因 此 将 导致 多 个 分 支 重 十 ， 其 运行 结果 如 图 3-2 所 示 。 
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图 3-2 代码 清单 3-3 的 运行 结果 


建议 23-2: 不 要 忘记 在 switch 语 句 的 结尾 添加 default 语 


在 switch 语 句 中 ，default 语 句 主要 用 于 检查 默认 情况 ， 或 者 处 理 错误 情况 ， 如 下 面 的 示例 代码 所 示 : 


default: 
printf ("errorNn") ; 
break; 


如 果 在 switch 语 句 中 去 掉 default 语 句 ， 那 么 switch 语 句 将 失去 对 默认 情况 与 错误 情况 的 处 理 能 力 。 所 以 ， 奉 劝 大 家 不 要 偷懒 ， 老 老实 实 把 每 一 种 情况 都 用 case 语 句 来 完成 ， 而 把 真正 对 默认 情况 的 处 理 
交 给 default 语 句 来 完成 。 即 使 程序 真 的 不 需要 default 处 理 ， 也 应 该 保留 此 语句 : 


default: 
break; 


这 样 做 并 非 画蛇添足 ， 可 以 避免 令 人 误 以 为 你 忘记 了 default 处 理 。 


建议 23-3: 不 要 为 了 使 用 case 语 句 而 刻意 构造 一 个 变量 


在 实际 编程 应 用 中 ，switch 中 的 case 语 句 应 该 只 用 于 处 理 简单 的 、 容 易 分 类 的 数据 。 如 果 数 据 并 不 简单 ， 却 为 了 使 用 case 语 句 而 刻意 构造 一 个 变量 ， 那 么 这 种 变量 很 容易 令 我 们 得 不 偿 失 。 因 此 应 该 严 


格 避 免 这 种 变量 ， 并 使 用 if/else if/else 结 构 来 处 理 这 类 程序 ， 如 下 面 的 示例 代码 所 示 : 


char ch = c[0]; 
switch (ch) 


Case 'a': 
RL 
break; 

Case 'b': 
六 
break; 

Case 'c': 
£3 0) 8 
break; 

default: 
break; 

} 


在 上 面 的 程序 中 ， 字 符 变量 ch 的 值 是 取 字 符 数组 c[] 的 第 一 个 字符 ， 与 case 语 句 中 的 常量 值 逐 一 进行 比较 。 很 显然 ， 这 种 方法 存在 一 个 严重 的 问题 。 


例如 ， 如 果 字 符 数组 c[] 中 存储 的 是 “ab” 字 符 串 ， 那 么 c[0] 会 取 第 一 个 字符 “a” 与 Case 语句 进行 匹配 ， 因 此 会 匹配 到 第 一 个 case 语 句 ， 并 调用 f () 函数 。 然 而 ， 如 果 字 符 数组 c[] 中 存储 的 是 其 他 以 
字符 a 开 头 的 字符 串 (比如 “abc” “abcd” “abcde” 等 ) ， 因 为 c[0] 始 终 会 取 第 一 个 字符 的 关系 ， 因 此 它们 同样 会 匹配 第 一 个 case 语 句 而 调用 f1 () 函数 。 其 他 的 case 语 句 同 理 。 很 显然 ， 这 并 不 是 我 们 
想 要 的 结果 。 


由 此 可 见 ， 当 为 了 使 用 case 语 句 而 刻意 构造 一 个 变量 时 ， 真 正 的 数据 可 能 不 会 按照 我 们 所 希望 的 方式 映射 到 case 语 句 。 因 此 ， 我 们 应 该 严格 避免 为 了 使 用 case 语 句 而 刻意 构造 一 个 变量 ， 并 使 用 if/else 
if/else 结 构 来 处 理 这 类 程序 ， 如 下 面 的 示例 代码 所 示 : 


if (0 == Strcmp ("ab", c) ) 
Ey A 

i 

else if (0 一 strcmp ("bc", c) ) 
fa 

} 

else if (0 一 strcmp ("cd", c) ) 
£3(); 

} 


else 
{ 
} 


建议 23-4: 尽量 将 长 的 switch 语 句 转换 为 同 套 的 switch 语 句 


有 了 时候 ， 当 一 个 switch 语 句 中 包括 很 多 个 case 语 句 时 ， 为 了 减少 比较 的 次 数 ， 可 以 把 这 类 长 switch 语 句 转 为 嵌 套 switch 语 句 ， 即 把 发 生 频率 高 的 case 语 句 放 在 一 个 switch 语 句 中 ， 作 为 谋 套 switch 语 句 
的 最 外 层 ; 把 发 生 频 率 相对 低 的 case 语 句 放 在 男 一 个 switch 语 句 中 ， 放 置 于 嵌 套 switch 语 句 的 内 层 。 


例如 ,下面 的 代码 把 发 生 频 率 相对 较 低 的 情况 放置 于 默认 的 case 语 句 内 。 


void print week (unsigned int day) 
switch (day) 
{ 


Gase 1: 
printf ("Monday\n") ; 
break; 

Case 2: 
printf ("Tuesday\n") ; 
break; 

case 3: 
printf ("Wednesday\n") ; 
break; 

Case 4: 
printf ("Thursday\n") ; 
break; 

Case 5: 
printf ("Friday\n") ; 
break; 

default: 
Switch (day) 
{ 


Case 6: 
printf ("Saturday\n") ; 
break; 

Case 7: 
printf ("Sunday\n") ; 
break; 

default: 
printf ("error\n") ; 
break; 


} 


在 上 面 的 代码 中 ， 假 设 case 6 与 case 7 不 经 常 发 生 ， 因 此 将 它们 放置 到 嵌 套 switch 语 句 的 最 内 层 。 从 表面 看 ,虽然 这 样 损 失 了 程序 的 一 定 可 读 性 ,但 当 case 语 句 很 多 ， 并 且 确 实 有 些 case 语 句 发 生 的 频 
率 比较 低 时 ， 这 种 解决 方案 还 是 可 取 的 。 


建议 24: 选择 合理 的 case 语 句 排序 方法 


对 于 switch 中 的 case 语 句 排序 问题 ， 如 果 case 语 句 很 少时 ， 可 以 忽略 这 个 问题 。 但 是 ， 如 果 case 语 句 很 多 时 ， 那 就 需要 好 好 考虑 这 个 问题 了 。 一 般 而 言 ， 可 以 选择 下 面 3 个 建议 进行 合理 排序 。 


建议 24-1: 尽量 按照 字母 或 数字 顺序 来 排列 各 条 case 语 句 


通常 情况 下 ， 如 果 所 有 case 语 句 没有 明显 的 重要 性 差别 ， 并 且 发 生 的 频率 都 差不多 ， 那 么 可 以 按 A-B-C 或 1-2-3 等 顺序 来 排列 case 语 句 。 这 样 做 不 仅 可 以 提高 代码 的 可 读 性 ， 而 且 可 以 很 容易 找到 某 条 
case 语 句 ， 如 上 面 的 代码 清单 3-2 所 示 。 


建议 24-2: 尽量 将 情况 正常 的 case 语 句 排 在 最 前 面 


如 果 switch 中 存在 多 个 情况 正常 的 case 语 句 ， 同 时 又 存在 多 个 情况 异常 的 case 语 句 。 那 么 应 该 尽量 将 情况 正常 的 case 语 句 排 在 最 前 


如 下 面 的 示例 代码 所 示 : 


， 而 将 情况 异常 的 case 语 句 排 在 最 后 面 。 同 时 ， 做 好 相应 的 注释 ， 


Switch (i) 


/* 正 常情 况 开始 */ 
case 0: 
/* 处 理 代码 */ 
break; 
Case 1: 


/* 处 理 代码 */ 
b: 


/* 处 理 代码 */ 
break; 
Case -2: 
/* 处 理 代码 */ 
break; 
/* 异 常情 况 结束 */ 
default: 
break; 
} 


建议 24-3: 尽量 根据 发 生 频率 来 排列 各 条 case 语 句 


如 果 能 够 预测 出 每 条 case 语 句 大 概 的 发 生 频率 ， 就 可 以 将 执行 频率 最 高 的 Case 语句 放 在 最 前 面 ， 而 将 执行 频率 较 低 的 Case 语句 放 在 最 后 


。 这样 不 仅 可 以 适当 提高 程序 的 性 能 ， 而 且 便 于 调试 代码 。 因 


为 执行 频率 最 高 的 代码 可 能 也 是 调试 的 时 候 要 单 步 执行 次 数 最 多 的 代码 。 如 果 放 在 后 面 ， 找 起 来 可 能 会 比较 麻烦 ， 而 放 在 前 面 则 方便 快速 找到 。 


建议 25: 尽量 避免 使 用 goto 语 名 


自从 提倡 结构 化 程序 设计 以 来 ，goto 语 名 就 成 为 业界 争议 最 大 的 语句 。 不 论 各 家 对 goto 语 句 的 意见 是 好 是 坏 ， 总 结 前 人 的 经 验 ， 还 是 应 该 尽量 避免 在 程序 中 使 用 goto 语 句 ， 其 原因 主要 有 以 下 两 方 


面 。 


首先 ， 由 于 goto 语 句 可 以 灵活 跳 转 ， 如 果 不 加 限制 ， 它 的 确 会 破坏 结构 化 设计 风格 ， 如 下 面 的 示例 代码 所 示 : 


/* 处 理 代码 */ 
goto B; 
/* 处 理 代码 */ 
goto C; 


/* 处 理 代码 */ 
goto A; 
/* 处 理 代码 */ 
goto C; 


/* 处 理 代码 */ 


goto A; 
/* 处 理 代码 */ 
goto B; 


很 显然 ， 上 面 的 示例 代码 已 经 能 够 说 明 问 题 了 ， 随 着 标签 数量 增多 ， 将 给 代码 的 可 读 性 、 可 调试 性 与 可 维护 性 带 来 一 场 灾 难 。 


其 次 ， 若 不 加 限制 地 使 用 goto 语 句 ， 该 语句 可 能 跳 过 变量 的 初始 化 、 重 要 的 计算 等 语句 ， 从 而 给 程序 带 来 灾难 性 的 错误 与 潜在 的 安全 隐患 ， 如 下 面 的 示例 代码 所 示 : 


char *p = NULL; 

/* 处 理 代码 */ 

goto state; 

/* 变 量 sum 被 goto 跳 过 */ 

int sum = 0; 

/* 指 针 p 被 goto 跳 过 ， 没 有 分 配 内 存 */ 

p= (char *) malloc (40 * sizeof (char) ) ; 

if (p 一 NULL) 

{ 

/* 处 理 代码 */ 

} 

/* 处 理 代码 */ 
state: 
/* 使 用 P 指 向 的 内 存 里 的 值 的 代码 */ 
/* 使 用 变量 num*/ 


如 上 面 代码 所 示 ， 如 果 编 译 器 不 能 发 现 此 类 错误 ， 则 每 


一 次 goto 语 句 都 可 能 导致 程序 出 现 灾难 性 的 错误 与 潜在 的 安全 隐患 。 


当然 ， 如 果 遇 到 下 列 情 况 ，goto 语 句 还 是 有 其 自身 优势 的 。 


for (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...) 
{ 


for (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...) 


for (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...) 
{ 


/* 使 用 goto 语 自 跳出 循环 ， 执 行 其 他 的 语句 */ 


goto A; 


} 
} 


/* 处 理 代码 */ 


在 上 面 的 代码 中 ， 如 果 使 用 break 语 句 ， 则 只 能 跳出 单 层 的 循环 ; 如 果 使 


环 中 想 要 跳出 最 外 层 的 循环 ， 


goto 直 接 跳 出 比 用 break 一 


return 语 句 ， 则 会 跳出 整个 函数 ， 无 法 继续 执行 其 他 的 代码 。 因 此 ， 这 里 可 以 使 用 goto 语 句 。 其 实 ， 如 果 陷 入 很 深层 次 的 循 
慨 循 环 一 层 循环 跳出 要 好 得 多 。 


建议 26: 区 别 continue 与 break 语 名 


在 C 语 言 中 ，continue 语 句 和 break 语 句 的 区 别 如 下 。 


(1) 对 于 continue 语 句 


它 只 结束 本 次 循环 ， 而 不 是 终止 整个 循环 的 执行 。 也 就 是 说 ， 在 while 循 环 、do/while 循 环 和 for 循 环 中 ，continue 语 句 将 跳 过 循环 体 中 剩余 的 语句 而 强制 执行 下 一 次 循环 ， 即 结束 本 次 循环 ， 跳 过 循环 
体 中 下 面 尚未 执行 的 语句 ， 接 着 进行 下 一 次 是 否 执行 循环 的 判定 ， 如 下 面 的 示例 代码 所 示 : 


int main (void) 


unsigned int i=0; 
for ( i=0; i<20; i++) 
{ 


if (i%2==0) 
continue; 
printf ("%4d", i) ; 
} 
printf (Mn 六 
return 0; 


在 上 面 的 代码 中 ， 为 了 演示 continue 语 句 的 作用 ， 利 用 continue 语 句 输出 0 到 19 之 间 不 能 被 2 整除 的 数 。 其 中 ， 当 i 能 被 2 整除 时 ， 将 执行 continue 语 句 ， 结 束 本 次 循环 ， 并 中 过 尚未 执行 的 
printf ("%4d"，i) 语句 ， 接 着 执行 下 一 次 循环 与 判断 语句 if (i%2==0) 。 只 有 i 不 能 够 被 2 整除 时 才 执行 printf (“%4d”，i) 语句 来 输出 结果 ， 如 图 3-3 所 示 。 


国 CWindows\system32\cmd.exe 


EE i ee I 15 1 1 二 


图 3-3 ”continue 示 例 代码 的 运行 结果 


(2) 对 于 break 语 句 


区 


相对 于 continue 语 句 ，break 语 句 则 是 结束 整个 循环 过 程 ， 不 再 判断 执行 循环 的 条 件 是 否 成 立 。 也 就 是 说 ， 在 分 支 结构 程序 设计 中 用 break 语 句 可 以 跳出 switch 语 句 块 ， 继 续 执行 Switch 下面 的 语句 。 而 
在 while 循 环 、do/while 循 环 和 for 循 环 中 ，break 语 句 用 来 终止 本 层 循 环 ， 继 续 执行 该 循环 外 的 语句 。 


现在 ， 如 果 将 上 面 示例 代码 中 的 continue 语 句 修改 成 break 语 名 结果 会 是 什么 呢 ? 如 下 面 的 示例 代码 所 示 : 


int main (void) 
unsigned int i=0; 
for ( i=0; i<20; i++) 
{ 
if (i%2==0) 
break; 
Printf ("S40" 2) 3 


} 
printf (Mn 
return 0; 


其 实 ， 从 代码 中 可 以 看 出 ， 当 for 循 环 执行 第 一 次 循环 时 ( 即 的 值 为 0) ， 表 达 式 0%2 的 值 为 0%， 因 此 ,if (i%2==0) 语句 返回 真 ， 从 而 执行 break 语 句 ， 终 止 整个 for 循 环 ， 最 后 程序 什么 都 不 输出 。 


最 后 还 需要 注意 的 是 ，break 语 句 不 能 用 于 循环 语句 和 switch 语 句 之 外 的 任何 其 他 语句 中 。 在 循环 语句 中 ，break 语 句 与 continue 语 句 一 般 与 if 语 句 一 起 使 用 。 


第 4 章 ”函数 同样 需要 保持 简洁 高 


在 C 语 言 中 ， 函 数 是 构成 C 程 序 的 基本 功能 单元 ， 它 是 一 个 能 够 独立 完成 某 种 功能 的 程序 块 ， 其 中 封装 了 程序 代码 和 数据 ， 实 现 了 更 高 级 的 抽象 和 数据 隐藏 。 这 样 编程 者 只 需要 关心 函数 的 功能 和 使 
法 ， 而 不 必 关 心 函数 功能 的 具体 实现 细节 。 


dt 


一 个 C 程 序 由 一 个 主 函 数 (main 函 数 ) 与 多 个 函数 构成 。 其 中 ， 主 函数 main () 可 以 调用 任何 函数 ， 各 函数 之 间 也 可 以 相互 调用 ， 但 是 一 般 函 数 不 能 调用 主 函 数 。 所 有 函数 都 是 平行 、 独 立 的 ， 不 能 嵌 
套 定义 ， 但 可 以 谋 套 调用 。 本 章 将 重点 论述 函数 设计 的 一 些 常用 建议 ， 其 中 包括 函数 的 规划 、 内 部 实现 、 参 数 与 返回 值 等 。 


建议 27: 理解 函数 声明 


谈 到 函数 声明 ， 就 不 得 不 说 经 典 书 《C Traps and Pitfalls》 (人 陷阱 与 缺陷 ) 中 的 一 个 例子 : 有 一 段 程序 存储 在 起 始 地 址 为 0 的 一 段 内 存 上 ， 要 调用 这 段 程序 ， 该 如 何 去 做 ? 答案 如 下 : 


vid (ty 


恐怕 像 这 样 的 表达 式 ， 无 论 是 新 程序 员 ， 还 是 经 验 


接 下 来 看 如 下 两 个 简单 的 声明 示例 : 


富 的 老 程序 员 ， 都 会 感到 不 寒 而 栗 。 然 而 ， 构 造 这 类 表达 式 其 实 只 有 一 条 简 重 


的 规则 : 按照 使 


的 方式 来 声明 。 


float 工 () ; 
float *pf; 


在 上 面 的 代码 中 ， 很 显然 ，f 晨 一 个 返回 值 为 浮 点 类 型 的 函数 ;而 pf 则 是 一 个 指向 浮 点 数 的 指针 。 如 果 将 它们 简单 地 组 合 起 来 ， 就 可 以 得 到 如 下 两 种 声明 方式 : 


float *f1 () ; 
float (*f2) (} ; 


的 函数 的 返回 值 为 浮 点 类 型 。 


在 这 里 需要 特别 注意 的 是 ， 一 旦 知道 了 如 何 声明 一 个 给 定 类 型 的 变量 ， 


来 , 即 : 


float ‘(*E2) (}3 


该 类 型 的 类 型 转换 符 就 很 容易 得 到 : 只 需要 去 掉 声 明 中 变量 名 和 声明 末尾 的 分 号 ， 


上 面 两 者 的 区 别 在 于 : 因为 ”() ”结合 优先 级 高 于 “*”， 也 就 是 说 “*f1 () ”等 价 于 ”* (f1 () ) ”， 即 们 是 一 个 函数 ， 它 返回 值 类 型 为 指向 浮 点 数 的 指针 ; 同 理 ，f2 是 一 个 函数 指针 ， 它 所 指向 


再 将 剩余 的 部 分 用 一 个 括号 整个 “封装 ”起 


因为 f2 是 一 个 指向 返回 值 为 浮 点 类 型 的 函数 的 指针 ， 


此 ， 该 类 型 的 类 型 转换 符 如 下 : 


(float (*) () ) 


即 它 表 示 一 个 “指向 返回 值 为 浮 点 类 型 的 函数 的 指针 ”的 类 型 转换 符 。 


好 了 ， 现 在 继续 分 析 上 面 的 例子 : 


《0 


在 这 里 假定 变量 fp 是 一 个 函数 指针 ， 显 然 “*fp” 就 是 该 指针 所 指向 的 函数 。 当 然 ， 
在 ”(*fp) () ”中 ，“*fp” 两 侧 的 括号 非常 
为 “ ( (*fp) () ) ”的 简写 形式 。 


根据 问题 描述 ， 可 以 知道 0 是 这 个 函数 的 入 口 地 址 ， 


就 是 说 ，0 是 一 个 函数 的 指针 。 结 合 上 面 的 “” (fp) 


“Cfp) 


() ”， 问 题 中 的 函数 调 


可 以 写成 如 下 形式 : 


() ”就 是 调用 该 函数 的 方式 (在 ANSI C 标 准 中 ， 人 允许 程序 员 简 写 为 “fp () ”这 种 形式 ) 。 
要 ， 因 为 ”() ”结合 优先 级 高 于 “*”。 如 果 “*fp” 两 侧 没有 括号 , 那么 “*fp () ”实际 上 与 “* (fp () ) ”的 含义 完全 一 致 ，ANSI C 把 它 作 


《0 


大 家 都 知道 ， 函 数 指针 变量 不 能 


简 


是 一 个 常数 ， 很 显然 上 式 并 不 能 生效 。 


因此 ， 上 式 中 的 0 必须 被 转化 为 函数 指针 ， 一 个 指向 返回 值 为 void 类 型 的 函数 的 指针 。 也 就 是 说 ， 需 要 将 fp 的 声明 修改 成 如 下 形 


void {*fp) (); 


这 样 ， 就 可 以 得 到 该 类 型 的 类 型 转换 符 : 


《VE 


现在 将 常数 0 转型 为 “指向 返回 值 为 void 的 函数 的 指针 ”类 型 就 可 以 写成 如 下 形式 : 


(void (*) () ) 0 


最 后 ， 使 用 ” (void (*) () ) 0” 来 蔡 换 ”(*fp) () ”中 的 fp 或 ”(*0) 


() ”中 的 0， 就 可 以 很 简单 地 得 到 下 面 的 表达 式 : 


(mde 


为 了 便于 大 家 理解 ， 在 这 里 继续 对 (* (void (*) 


1) 对 于 “void (*) () ”， 可 以 很 简单 地 看 出 这 是 一 个 函数 指针 类 型 ， 


2) 对 于 ” (void (*) () ) 


3) 对 于 ”(* (void (5 () ) 0) ”， 这 里 取 0 地 址 开始 的 一 段 内 存 中 的 


4) 对 于 “(* (void (*) ( 


0”， 这 里 将 0 强制 转换 为 函数 指针 类 型 ， 其 中 0 是 一 个 地 址 ， 也 就 是 说 ， 一 个 肖 数 存在 首 地 址 为 0 的 一 段 区 域内 ; 


() ) 0) () ”做 如 下 4 点 说 明 : 


) ) 0) 〈) ”， 很 简单 ， 这 当然 就 是 函数 调用 了 。 


建议 28: 理解 函数 原型 


在 ANSI C 标 准 中 ， 人 允许 采 


函数 原型 能 告诉 编译 器 函数 的 名 称 ， 函 数 有 多 少 个 参数 ， 每 个 参数 分 别 是 什么 类 型 ， 函 数 的 返回 类 型 又 是 什么 等 。 当 函数 被 调 
回 类 型 是 否 正确 等 。 函 数 原型 能 让 编译 器 及 时 发 现 函数 调 


函数 原型 方式 对 被 调 


的 函数 进行 说 明 ， 其 主要 作 


内 容 ， 其 内 容 就 是 保存 在 首 地 址 为 0 的 一 段 


就 是 利 


时 存在 的 语法 错误 。 示 俱 


代码 如 下 : 


它 在 程序 的 编译 阶段 对 调 


区 域内 的 函数 ; 


函数 的 合法 性 进行 全 


这 个 函数 没有 参数 (参数 为 空 ) ， 并 且 也 没有 返回 值 (返回 值 为 void) ; 


丛 查 。 


时 ， 编 译 器 可 以 根 


息 判断 实 参 个 数 与 类 型 是 否 正确 ， 函 数 的 返 


/* 通 数 原型 */ 
char *Memcopy (char *dest, 
/* 函 数 定义 */ 


Gonst char *src; 


Char *Memcopy (char *dest, Cconst char *src, 


{ 


ize t size) 


Size 七 size) 


assert ( (dest! =NULL) 
char *retAddr = dest; 
while (size --> 0) 


{ 


&& (Srcl =NULL) ) ; 


* (dest++) 二 (SEC 3 


return retAddr; 


在 上 面 的 代码 中 ， 当 调用 Memcopy () 函数 时 ， 编 译 器 就 会 检查 调用 函数 
匹配 ， 编 译 程序 就 会 报告 出 错 或 发 出 警告 消息 。 


的 实 参 是 不 是 3 个 ”每 个 参数 的 类 型 是 否 


匹配 ?函数 的 返回 类 型 是 否 正确 ”如 果 编 译 程序 发 现 函数 的 调用 或 定义 与 函数 原型 不 


在 一 般 情况 下 ， 当 被 调用 函数 的 定义 出 现在 主 调 
并 将 函数 返回 值 类 型 默认 为 int 型 。 


如 果 这 样 ， 当 函数 返回 
提醒 ， 你 也 许 会 得 意 于 程序 的 安全 通过 ， 但 你 很 可 能 


面临 类 型 不 


函数 之 后 时 ， 应 必须 在 调 


之 前 没有 给 出 函数 原型 ， 则 编译 器 会 将 第 一 次 遇 到 的 该 函数 定义 作为 函数 的 声明 ， 


语句 之 前 给 出 函数 原型 。 如 果 在 被 调 


值 类 型 为 整 型 时 ， 是 否 无 须 给 出 函数 原型 呢 ? 很 显然 ， 这 种 偷懒 的 方法 将 使 得 编译 器 无 法 对 实 参 和 形 参 进行 
匹配 所 带 来 的 系统 崩溃 的 危险 。 


总 之 ， 在 源 文件 中 说 明 函 数 原型 提供 了 一 种 检查 函数 是 否 被 正确 引 


建议 29: 尽量 使 函数 的 功能 单一 


在 程序 的 函数 设计 中 ， 我 们 所 要 遵循 的 首要 设计 原则 就 是 “函数 功能 单一 ”。 也 就 是 说 ， 一 个 函数 应 该 只 能 够 完成 一 件 寻 


面 俱 到 、 多 功能 集 于 一 身 的 复杂 函数 。 


途 、 面 


当然 ， 如 果 你 有 一 个 概念 上 简单 的 函数 (这 里 所 谓 的 “ 简 


许 的 
描述 性 的 名 字 。 


不 当 ， 编 译 器 也 不 会 再 给 出 善意 的 


函数 时 参数 使 


匹配 检查 。 若 调 


的 机 制 。 同 时 ， 目 前 许多 流行 的 编译 程序 都 会 检查 被 引 


的 函数 的 原型 是 否 已 在 源 文件 中 说 明 过 ， 如 果 没 有 ， 就 会 发 出 警告 消息 。 


。 但 是 ， 如 果 你 有 一 个 复杂 的 函数 ， 并 且 一 般 程 序 员 在 没有 详细 文档 的 情况 下 很 难 读 懂 这 个 函数 ， 那 么 应 该 努力 简化 这 个 函数 的 功能 与 代码 ， 适 当 拆 分 这 个 函数 的 功能 ， 使 


与 


下 面 我 们 来 看 一 个 函数 的 设计 示例 ， 如 代码 清单 4-1 所 示 。 


代码 清单 4-1 利用 链 栈 将 数据 逆序 输出 


#include <stdio.h> 
#include <stdlib.h> 
typedef int ElementType; 
typedef struct node 
{ 
ElementType data; 
struct node *next; 
}StackNode， *LinkStack; 
void InvertedSequence (int num) 
{ 
int i=0; 
int result=0; 
LinkStack 1s; 
// 初始 化 
ls = (LinkStack) malloc (sizeof (StackNode) ) ; 
1s->next = NULL; 
printf (“数据 输入 为 : \n”) ; 
for (i=0; i<num; i++) 


{ 
// 入 栈 
StackNode *temp; 
temp = (StackNode *) malloc (sizeof (StackNode) ) ; 
if (temp ! = NULL) 
{ 
temp->data = i; 
temp->next = 1s->next; 
ls->next = temp; 
printf ("dd " 2} 
} 
} 
Printf ("\n 数 据 输出 为 : \n") ; 
while (ls->next ! = NULL) 
{ 
// 出 栈 
StackNode *temp = ls->next; 
result = temp->data; 
1s->next = temp->next; 
free (temp) ; 
Printf ("%d ", result) ; 
} 
Erinte (my 
main (void) 


InvertedSequence (20) ; 
return 0; 


此 同时 ， 人 类 的 大 脑 一 般 能 够 同时 记 住 7 个 不 同 的 东西 ， 超 过 这 个 数目 就 会 犯 糊 涂 。 


因此 ， 对 于 函数 的 


局 部 变量 的 数目 也 应 该 尽量 减少 ， 


情 ， 并 且 只 能 够 完成 它 自己 的 任务 。 函 数 功能 应 该 越 简单 越 好 ， 尽 量 避 免 设 计 


”是 simple 而 不 是 easy) ， 它 恰恰 包含 着 一 个 很 长 的 case 语 句 ， 这 样 你 就 不 得 不 为 这 些 不 同 的 情况 准备 不 同 的 处 理 ， 那 么 这 样 的 长 函数 是 允 


一 些 辅 


助 函数 ， 给 它们 取 


一 般 情况 下 最 多 5~10 个 。 


如 代码 清单 4-1 所 示 ， 在 InvertedSequence (int num) 方法 中 ， 我 们 实现 了 链 栈 的 常用 操作 ， 即 包括 初始 化 、 入 栈 与 出 栈 等 操作 ， 


4-1 所 示 。 


运行 结果 如 


本 管理 员 : Visual Studio Command Prompt (2010) 


:NEN4>4- 


丰 和 宁 1 和 LtILeIL3 Id 1S 并 6 二 7 二名 寺 外 


15s 14 13 12 11 18 9 8 76543218 


图 4-1 代码 清单 4-1 的 运行 结果 


很 显然 ， 代 码 清单 4-1 中 的 InvertedSequence (int num) 多 功能 函数 不 仅 很 可 能 使 理解 、 测 试 、 维 护 函 数 等 变 得 困难 ， 并 且 也 会 使 函数 不 具有 好 的 可 复 用 性 ， 如 果 在 后 续 的 代码 中 遇 到 类 似 的 功能 需 
求 ， 又 将 需要 重 写 此 功能 代码 。 由 此 可 见 ， 虽 然 这 里 的 InvertedSequence (int num) 函数 满足 了 程序 功能 的 需要 ， 但 是 它 却 违反 了 函数 的 功能 单一 原则 。 


因此 ， 根 据 函 数 的 功能 单一 原则 ， 我 们 应 该 将 该 函数 的 相关 链 栈 操作 独立 进行 设计 ， 这 样 不 仅 能 够 使 函数 的 功能 变 得 简单 ， 而 且 能 够 很 好 地 保证 函数 有 良好 的 扇 入 和 扇 出 比例 ， 特 别 是 公用 模块 或 底层 
模块 中 的 函数 一 定 要 具有 较 大 的 扇 入 才能 有 效 提 高 代码 的 可 复 用 性 。 改 正 后 的 示例 如 代码 清单 4-2 所 示 。 


代码 清单 4-2 ”利用 链 栈 将 数据 逆序 输出 


typedef int BOOL; 
#define TRUE 1 
#define FALSE 0 
#define STACK SIZE 100 
typedef int ElementType; 
typedef struct node 
{ 
ElementType data; 
struct node *next; 
}StackNode， *LinkStack; 
// 初始 化 
void InitStack (LinkStack 1s) 
{ 
ls->next = NULL; 


} 
// 是 否 为 空 
BOOL IsEmpty (LinkStack 1s) 
{ 
if (1s->next 一 NULL) 


return TRUE; 


return FALSE; 
} 


} 
// 入 栈 
BOOL Push (LinkStack ls, ElementType element) 
{ 
StackNode *temp; 
temp = (StackNode *) malloc (sizeof (StackNode) ) ; 
if (temp 一 NULL) 
{ 
return FALSE; 
} 
temp->data = element; 
temp->next = 1s->next; 
ls->next = temp; 
return TRUE; 


bs 
// 出 栈 
BOOL Pop (LinkStack ls, FlementType *element) 


if (IsEmpty (1s) ) 
{ 

return FALSE; 
else 


StackNode *temp = ls->next; 
*element = temp->data; 
1s->next = temp->next; 

free (temp) ; 

return TRUE; 


} 
void InvertedSequence (int num) 
{ 
int i=0; 
int result=0; 
LinkStack 1s; 
ls = (LinkStack) malloc (sizeof (StackNode) ) ; 
// 初始 化 
InitStack (1s) ; 
Printf ("数据 输入 为 : \n") ; 
for (i=0; i<num; i++) 
{ 
// 入 栈 
Push (ls, 1) ; 
Erintf ("a "1 3 
} 
Printf ("\n 数 据 输出 为 : \n") 
while (! IsEmpty (1s) ) 
{ 
// 出 栈 
Pop (ls, &result) ; 
printf ("%d ", result) ; 


} 
Printf ("Vn") 


现在 ， 通 过 对 比 代码 清单 4-1 与 代码 清单 4-2， 可 以 很 容易 看 出 ， 代 码 清单 4-2 不 仅 简单 易 读 、 易 维护 ， 而 且 其 函数 也 具有 更 好 的 可 复 用 性 。 严 格 遵循 函数 的 功能 单一 原则 ， 这 样 不 但 能 够 让 你 更 好 地 命 
名 函数 ， 也 使 理解 和 阅读 代码 变 得 更 加 容易 。 如 果 遇 到 一 个 特殊 的 情况 不 得 不 打破 这 个 原则 ， 可 以 停 下 来 ， 思 考 一 下 是 不 是 自己 对 这 个 “特殊 情况 ”的 理解 还 不 够 深 。 函 数 应 该 很 精确 地 执行 一 件 事 且 只 执 


hu 


行 这 一 件 事 ， 明 确 函 数 功 能 (一 个 函数 仅 完成 一 件 事 情 ) ， 精 确 (而 不 是 近似 ) 地 实现 函数 设计 。 


建议 30: 避免 把 没有 关联 的 语句 放 在 一 个 函数 中 


在 代码 编写 中 ， 我 们 时 常会 为 了 提高 代码 的 可 复 


性 而 刻意 地 将 不 同 函数 中 使 


象 是 合理 的 。 但 是 ， 如 果 仅 仅 是 为 了 提高 代码 的 可 复 


的 相同 代码 语句 提出 来 ， 抽 象 成 一 个 新 的 函数 。 当 然 ， 如 果 这 些 代码 的 关联 度 较 高 ， 并 且 完 成 同一 个 功能 ， 那 么 这 种 抽 
性 ， 把 没有 任何 关联 的 语句 放 在 一 起 ， 就 会 给 以 后 的 代码 维护 、 测 试 及 升级 等 造成 很 大 的 不 便 ， 同 时 也 使 函数 的 功能 不 明确 。 示 例 代 码 如 下 : 


void Init ( void ) 


/* 初始 化 矩形 的 长 与 宽 */ 
Rect.length = 0; 
Rect.width = 0; 

/* 初始 化 “点 ”的 坐标 */ 
Point.x = 0; 

Point.y = 0; 


很 显然 ， 上 面 的 函数 Init (void) 设计 是 不 合理 的 ， 


因为 矩形 的 长 、 宽 与 点 的 坐标 基本 没有 任何 关联 。 


因此 ， 我 们 应 该 将 其 抽象 为 如 下 两 个 函数 : 


/* 初始 化 矩形 的 长 与 宽 */ 
void InitRect ( void ) 
{ 
Rect.length = 0; 
Rect.width = 0; 


} 
/* 初始 化 “点 ”的 坐标 */ 
void InitPoint ( void ) 
{ 
Point.x 
Point.y 和 


建议 31: 函数 的 抽象 级 别 应 该 在 同一 层次 


先 来 看 下 面 一 段 示例 代码 : 


void Init ( void ) 
{ 
/* 本 地 初始 化 */ 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPSVText/... 


InitRemote () ; 
void InitRemote ( void ) 
{ 


/* 远 程 初始 化 */ 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/... 


EF 


从 表面 上 看 ， 上 面 的 Init (void) 函数 主要 完成 本 地 初始 化 与 远程 初始 化 工作 ， 在 其 功能 实现 上 没什么 不 妥 之 处 。 但 从 设计 观点 看 , 友 
因此 ， 如 果 远 程 初始 化 作为 独立 的 函数 存在 ， 那 么 本 地 初始 化 也 应 该 作为 独立 的 函数 存在 。 


初始 化 与 远程 初始 化 的 地 方 是 相当 的 。 


很 显然 ， 上 面 的 Init (void) 函数 将 本 地 初始 化 直接 运行 在 本 函数 内 部 ， 而 将 远程 初始 化 封装 在 一 个 独立 的 函数 内 ， 并 在 这 里 进行 调 


面 的 示例 代码 所 示 : 


存在 着 一 定 的 缺陷 。 从 Init (void) 函数 中 ， 我 们 可 以 看 出 ， 本 地 


。 这 种 设计 是 不 受 的 ， 两 个 函数 的 抽象 级 别 应 该 在 同一 层次 ， 如 下 


void Init ( void ) 


InitLocal () ; 
InitRemote () ; 


} 
void InitLocal ( void ) 


/* 本 地 初始 化 */ 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPSVText/... 


} 
void InitRemote ( void ) 


/* 远 程 初始 化 */ 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/... 


} 


建议 32: 尽 可 能 为 简单 功能 编写 函数 


有 时 候 ， 我 们 需要 用 函数 去 封装 仅 
且 也 方便 代码 的 维护 与 测试 。 示 例 代码 如 下 : 


一 两 行 代 码 就 可 完成 的 功能 。 


对 于 这 样 的 函数 ， 单 从 代码 量 上 看 ， 好 像 没 有 什么 封装 的 必要 。 但 是 ， 


函数 可 使 其 功能 明确 化 、 具 体 化 ， 从 而 增加 程序 可 读 性 ， 并 


int Max (int x, int y) 
{ 
return (x>y? x: y) ; 


int Min (int x, int y) 


return (x<y? x: y) ; 
} 


当然 ， 也 可 以 使 


宏 来 代替 上 面 的 函数 ， 代 码 如 下 : 


#define MAX (x, y) 
#define MIN (x, y) 


(((x) > (yy)? 
CE A 


(x) 
(zx) 


(y) ) 
(y) ) 


在 C 程 序 中 ， 我 们 可 以 适当 地 | 


宏 代码 来 提高 执行 效率 。 宏 代码 本 身 不 是 函数 ， 但 使 


起 来 与 函数 相似 。 预 处 理 器 


制 宏 代码 的 方式 代 蔡 函数 调 


， 省 去 了 参数 压 栈 、 生 成 汇编 语言 的 CALL 调 用 、 


回 参数 、 执 行 return 等 过 程 ， 从 而 提高 了 运行 速度 。 但 是 ， 使 用 宏 代码 最 大 的 缺点 就 是 容易 出 错 ， 预 处 理 器 在 复制 宏 代码 时 常常 产生 意 想 不 到 的 边际 效应 。 因 此 ， 尽 管 看 起 来 宏 要 比 函 数 简单 得 多 ， 但 还 是 


建议 使 用 函数 的 形式 来 封装 这 些 简 单 功能 的 代码 。 


建议 33: 避免 多 段 代码 重复 做 同一 件 事情 


在 源 文 件 中 ， 如 果 存 在 着 多 段 代 码 重复 做 同一 件 事情 ， 那 么 很 可 能 在 函数 的 划分 上 存在 着 一 定 的 问题 。 若 此 段 代 码 各 语句 之 间 有 实质 性 关联 并 且 是 完成 同一 项 功能 的 ， 那 么 可 以 考虑 把 此 段 代 码 抽象 成 


一 个 新 的 函数 。 


示例 代码 如 下 : 


/* 希 尔 排 序 法 */ 

void ShellSort (int v[], int n) 

{ 
int i, j, gap, temp; 
for (gap=n/2; gap>0; gap /= 2) 
{ 


for (i=gap; i<n; i++) 
for (j=i-gap; (j >= 0) 8&& (v[j] > v[jtgap]) ; j -= gap ) 
{ 


temp=v [j]; 
VvV[jl=v[j+gap]; 
Vv[j+gap]=temp; 


} 
} 


} 
/* 置 泡 排序 法 */ 
void BubbleSort (int v[], int n) 
{ 
int i, j, temp; 
for (j=0; j<n; j++) 
{ 


for (i=0; i< (n- (j+1) ) ; i++) 
{ 
if (v[i]>v[i+1]) 
{ 
temp=v [i]; 
Vv[i]=v[i+1]; 
Vv[i+1]=temp; 


在 上 面 的 示例 代码 中 ,函数 ShellSort (int v0，int n) 与 函数 Bubblesort (int v0]，int n) 分 别 实现 了 希 尔 排序 与 冒 泡 排序 的 功能 。 仔 细 观 察 这 两 个 简单 的 排序 函数 ， 不 难 发 现 ， 无 论 是 Shellsort (int 


v0，int n) 函数 ， 还 是 Bubblesort (int v0]]，int n) 函数 ， 都 会 执行 交换 操作 。 因 此 ， 我 们 可 以 将 它们 的 交换 操作 代码 抽取 出 来 ， 独 立成 一 个 新 的 函数 ， 示 例 代 码 如 下 : 


V* 交 换 */ 
void Swap (int *i, int *j) 
{ 
int temp; 
temp=*i; 
id 
*j=temp; 
} 


这 样 ， 抽 取出 Swap (int*i，int 池 ) 函数 之 后 ， 不 仅 能 够 避免 不 必要 的 代码 重复 ， 便 于 以 后 维护 与 升级 代码 ， 而 且 能 够 使 我 们 的 代码 具有 更 大 的 复 用 价值 。 


现在 ， 我 们 可 以 直接 在 上 面 的 排序 函数 中 或 其 他 任何 需要 交换 操作 的 函数 中 调用 这 个 交换 函数 Swap (int*i，int) ， 示 例 代码 如 下 : 


/* 项 尔 排序 法 */ 

void ShellSort (int v[], int n) 

{ 
int i, j, gap; 
for (gap=n/2; gap>0; gap /= 2) 
{ 


for (i=gap; i<n; i++) 
for (j=i-gap; (] >=0) && (v[j] > vljtgap]) ; j -= gap ) 
{ 


Swap (&v[j], &v[j+gap]) ; 
} 
} 
} 


} 
/* 冒 泡 排序 法 */ 
void BubbleSort (int v[], int n) 
{ 
Lat 
for (j=0; j<n; j++) 
{ 


for (i=0; i< (n- (j+1) ) ; i++) 
{ 
if (v[i]>v[i+1]) 
{ 
Swap (&v[i], &v[i+1]) ; 
} 


建议 34: 尽量 避免 编写 不 可 重 入 函数 


可 重 入 (reentrant) 函数 由 多 个 任务 并 发 使 用 ， 程 序 员 在 使 用 时 不 必 担心 数据 错误 ; 它 也 可 以 在 任意 时 刻 被 中 断 ， 稍 后 继续 运行 ， 而 不 会 丢失 数据 。 因 此 ， 可 重 入 函数 要 么 使 用 本 地 变量 ， 要 么 在 使 用 


全 局 变量 时 保护 自己 的 数据 。 


与 可 重 入 函数 相反 ， 不 可 重 入 (non-reentrant) 函数 则 不 能 由 超过 一 个 任务 所 共享 ， 除 非 能 确保 函数 的 互 斥 (使 用 信号 量 或 者 在 代码 的 关键 部 分 禁用 中 断 ) 。 


在 早期 的 C 语 言 编程 中 ， 由 于 函数 很 少 有 并 发 访问 与 中 断 ， 不 可 重 入 性 对 程序 员 来 说 并 不 构成 什么 大 的 威胁 。 但 是 在 普遍 使 用 并 发 编程 的 今天 ， 这 个 缺陷 设计 问题 将 变 得 越 来 越 严重 。 例 如 ， 在 实时 系 


统 的 设计 中 ， 经 常会 出 现 多 个 任务 调用 同一 个 函数 的 情况 。 如 果 这 个 函数 不 幸 被 设计 成 不 可 下 


看 入 的 函数 ， 那 么 不 同 任务 调 


这 个 函数 时 可 能 修改 其 他 任务 调用 这 个 函数 的 数据 ， 从 而 导致 不 可 预料 的 后 果 。 


此 ， 我 们 应 该 尽量 避免 编写 不 可 忆 


入 函数 。 


建议 34-1: 避免 在 函数 中 使 用 static 局 部 变量 


要 编写 可 忆 


入 函数 ， 首 要 原则 就 是 避免 在 函数 中 使 


static 局 部 变 


建议 34-2: 避免 函数 返回 指向 静态 数据 的 指针 


在 函数 中 , 使 


全 已 
3 


static 局 部 变 


函数 不 可 引 


入 ; 同样 ， 如 果 函 数 返 回 


指向 静态 数据 的 指针 ， 也 会 导致 函数 不 可 忆 


， 详 细 内 容 请 见 第 1 章 建议 9。 


入 。 示 例 代码 如 下 : 


char *StrToUpper (char *str) 


static char buffer[STRING SIZE LIMIT]; 
int i; 
for (i= 0; 


{ 


Gtr [Ll 14+} 


buffer[i] = toupper (str[i]) ; 


} 
buffer[i] Ee 
return buffer; 


在 上 面 的 代码 中 ，StrToUpper 函 数 实现 了 将 字符 串 转换 为 大 写 ， 并 且 返 回 指向 静态 数据 的 指针 | 
入 。 接 下 来 我 们 通过 下 面 的 示例 代码 来 查看 其 运行 结果 : 


int main (void) 


长 


char in strl[]={"abcdef"}; 
char in str2[]={"ghijkl"}; 
at 

int 了 


char xout_strl-StrToUpper (in str1) ; 
char *out str2=StrToUpper (in str2) ; 
for (i=0; out strl[i]; i++) 
{ 

printf ("%c", out strl[i]) ; 


} 

printf ("Yn 六 

for (jj = 0 out str2(j]; 
{ 


j++) 
printf ("So", ovat str2[j]} 


} 
Erintf ("n\na"y 3 
return 0; 


buffer。 但 这 里 值得 注意 的 是 ， 


为 这 里 的 buffer 变 量 是 static 类 型 ， 从 而 导致 StrToUpper 函 数 不 可 重 


StrToUpper 函 数 的 调用 示例 如 


4-2 所 示 。 


HIJKEL 


3H I KL 


图 4-2 不 可 重 入 的 运行 结果 


:吉林 
1 月 炬 - 


在 


4-2 中 可 以 


地 看 到 ， 由 于 StrToUpper 函 数 的 不 可 于 


看 入 性 ， 从 而 导致 其 


运行 结果 并 不 是 我 们 所 需要 的 。 


此 ， 我 们 应 该 在 编码 中 尽量 避免 函数 返回 指向 静态 数据 的 指针 而 导致 函数 不 可 忆 


uy 


入 。 


例如 ,对 于 StrToUpper 函 数 ， 我 们 可 以 通过 修改 函数 的 原型 ， 由 进行 调用 的 逊 数 准备 输出 存储 空间 来 确保 函数 的 可 


入 性 ， 示 例 代码 如 下 : 


char *StrToUpper (char *in str, 


{ 


char *out str) 


‘nb 4 
for =0 instr[lil; i1+) 
out_ str[i] = toupper (in str[i]) 
} 
Out str[t] = NO 


return out str; 


现在 ， 由 于 StrToUpper 函 数 由 进行 调用 的 函数 准备 输出 存储 空间 ， 避 免 函 数 由 返回 指向 静态 数 H 


居 的 指针 而 导致 的 函数 不 可 重 入 ， 从 而 确保 StrToUpper 函 数 的 可 对 


入 性 。 其 调用 示例 如 下 面 的 代码 所 


int main (void) 


{ 


char in strl[]={"abcdef"}; 
char in str2[]={"ghijk1"}; 
dat 
nt 1; 


char Gut etrl[7]ls 
char out str2[7]; 
StrToUpper (in strl, out str1) ; 
StrToUpper (in str2, out str2) ; 
for (i=0; out strl[i]; i++) 
{ 

printf ("ie"s oot strl[i]) 3 


} 
printf ("Vay 


for (j= 0; out str2[j]; j++) 
{ 


printf ("se", vut str2[31) } 


Ek 
printt NO 
return 0; 


改进 后 的 StrToUpper 函 数 的 调用 示例 运行 效果 如 


4-3 所 示 。 


NBGDEF 
"GHIJKL 


建议 34-3: 避免 调用 任何 不 可 重 入 函数 


在 程序 中 ， 如 果 一 个 函数 调 


了 另外 一 个 不 可 忆 


入 函数 ， 那 么 这 个 函数 一 定 也 是 不 可 重 


图 4-3 可 重 入 的 运行 结果 


入 的 。 


此 ， 要 使 函数 是 可 于 


看 入 的 ， 就 应 该 尽量 避免 在 任何 函数 中 调 


不 可 


入 函数 。 示 例 代 码 如 下 : 


size t Sum index ( size t index ) 
{ 

size t i; 

static size t sum=0; 

for (i=1; i<= index; i++) 
{ 


sum += i; 


return sum; 
} 


size 七 Test (size t index) 


return Sum index (index) ; 


} 


在 上 面 的 示例 代码 中 ， 因 为 函数 Sum_index (size_t index) 内 部 使 用 了 static 变 量 ， 很 显然 是 不 可 重 入 的 。 因 此 当 函 数 Test (size_t index) 在 调用 函数 Sum _index (size_t index) 之 后 ， 也 变 成 不 可 
重 入 函数 。 当 然 ， 可 以 通过 修改 函数 Sum_index (size t index) 的 static 变 量 ， 将 两 个 函数 都 变 成 可 重 入 函数 ， 如 下 面 的 代码 所 示 : 


size t Sum index ( size t index ) 
{ 
lwe t 计 
size t sum=0; 
for (i=1; 
{ 


i <= index; i++) 


sum += ji 


return sum; 
} 


size t Test (size t index) 


return Sum index (index) ; 


} 


建议 34-4: 对 于 全 局 变量 ， 应 通过 互 斥 信号 量 ( 即 P、V 操 作 ) 或 者 中 断 机 制 等 方法 来 保证 函数 的 线程 安全 


对 于 使 


全 局 变量 而 导致 的 函数 不 可 忆 


看 入 早 在 第 1 章 的 建议 9 中 就 已 经 阐述 过 。 在 编码 中 ， 如 果 对 所 使 用 的 全 局 变量 不 加 以 保护 ， 那 么 此 函数 就 不 具有 可 重 入 性 ， 当 多 个 进程 调用 此 函数 时 ， 很 有 可 能 
有 关 全 局 变量 变 为 不 可 知 状态 。 示 例 代码 如 下 : 
int g=10; 
int Test () 


{ 
return g++; 


} 


在 上 面 的 代码 中 ， 函 数 Test 使 


了 全 


局 变量 g， 如 果 两 个 或 多 个 线程 同时 执行 它 并 访问 全 


局 变量 g， 则 返回 的 结果 取决 了 


当然 ， 如 果真 正 需要 的 只 是 线程 安全 ， 而 没有 必要 可 


因 。 示 例 代码 如 下 : 


int g=10; 

int Test () 

{ 
int r=g; 
return r++; 


i 


里 
和 映 


例 代 码 如 下 : 


a 然 上 面 的 方法 可 以 简单 地 解决 线程 安全 的 问题 ， 但 不 是 什么 时 候 都 适 


执行 的 时 间 。 因 此 ， 函 数 Test 不 可 重 入 。 
和 入 ， 那 么 可 以 通过 复制 全 局 变量 的 方式 进行 改进 。 其 实 ， 这 也 就 是 我 们 经 常 能 够 看 到 很 多 程序 都 要 在 函数 中 用 一 个 局 部 变量 保存 一 个 全 局 变量 的 


。 因 此 ， 有 时 候 为 了 保证 函数 的 线程 安全 ， 我 们 需要 利 


互 斥 信号 


( 即 P、V 操 作 ) 或 者 中 断 机 制 等 手段 来 保护 全 局 变量 。 示 


int *sharedID; 
int* NonThreadSafe GetID ( char* name ) 
{ 


很 显然 ， 上 面 的 NonThreadSafe_GetID (char*+name) 函数 是 不 可 重 入 的 ， 同 时 也 是 线程 不 安全 的 ， 若 它 被 多 个 进程 调 


也 就 是 ， 在 函数 的 语句 “unsharedID=shared 
控制 重新 回 到 “unsharedID=sharedID” 语 和 句 后 ， 


因此 ， 为 了 保证 函数 的 线程 安全 ， 我 们 可 以 利 


int *unsharedID; 

sharedID = GetID ( name ) ; 
unsharedID = sharedID; 
return unsharedID; 


D” 刚 执行 完 后 ， 如 果 另 外 一 个 使 


互 斥 信 


变量 unsharedID 很 可 能 得 


量 ( 即 P、V 操 作 ) 来 封装 这 个 函数 。 虽 然 这 样 的 函数 仍然 不 是 可 对 


到 的 不 是 预想 中 的 结果 。 


， 其 结果 可 能 是 未 知 的 。 


入 的 ， 但 却 是 线程 安全 的 ， 示 例 代码 如 下 : 


本 函数 的 进程 可 能 正好 被 激活 ， 那 么 当 新 激活 的 进程 执行 到 此 函数 时 ， 会 将 sharedID 赋 予 另 一 个 不 同 的 值 。 所 以 在 


i 
1 


{ 


nt *sharedID; 
nt* ThreadSafe GetID ( char* name ) 


int *unsharedID; 

[P 操 作 ] 

sharedID = GetID ( name ) ; 
unsharedID = sharedID; 

[V 操 作 ] 


return unsharedID; 


详细 的 互 斥 信号 量 


( 即 P、V 操 作 ) 的 实现 代码 可 以 参照 如 下 实现 : 


#include <pthread.h> 

pthread mutex t sharedMutex=PTHREAD MUTEX INITIALIZER; 
int *sharedID; 和 

int* ThreadSafe GetID ( char* name ) 


{ 


int *unsharedID; 

/* 进 入 临界 区 */ 
pthread mutex lock (gsharedMutex) ; 
sharedID = GetID ( name ) ; 
unsharedID = sharedID; 

/* 离 开 临 界 区 */ 
pthread mutex unlock (&sharedMutex) ; 
return UnsharedID; 


建议 34-5: 理解 可 重 入 函数 与 线程 安全 函数 之 间 的 关系 


例 代码 中 也 可 以 很 清楚 地 看 到 这 一 点 。 


将 malloc 函 数 放 入 信和 号 处 理 函 数 中 ， 那 么 这 将 是 一 件 很 危险 的 事情 。 


于 同 


量 
里 、 


本 地 变量 ， 
可 重 


对 于 线程 安全 概念 ， 
一 进程 的 不 同 线程 会 共享 进程 内 存 空间 中 的 全 


局 


虽然 可 重 入 与 线程 安全 这 两 个 概念 都 关系 到 函数 处 理 资 源 的 方式 ， 但 它们 才 
例如 ，malloc 函 数 就 是 一 个 典型 的 不 可 村 


如 果 一 个 函数 是 线程 安全 的 ， 当 上 且 仅 当 它 被 多 个 并 发 线程 / 
区 和 堆 ， 而 私有 的 线程 空间 则 主要 包括 栈 和 寄存 器 。 


是 两 个 不 同性 质 的 概念 。 


调 


入 函数 ， 但 它 却 是 线程 安全 函数 ， 所 以 我 们 可 以 很 方便 地 在 任意 多 个 线程 中 同时 调 


时 ， 它 会 一 直 产 生 正确 的 结果 。 要 确保 函数 的 线程 安全 ， 我 们 需要 考虑 的 


主要 是 线程 之 间 的 共享 变量 。 通 常 ， 


在 一 般 情况 下 ， 可 重 入 函数 一 定 是 线程 安全 函数 ， 但 线程 安全 函数 未 必 是 可 重 入 函数 ， 从 上 面 的 示 
malloc 函 数 。 但 是 值得 注意 的 是 ， 如 


果 


分 配给 堆 的 变量 都 是 共享 的 。 在 对 这 些 共享 变量 进行 访问 时 ， 要 保证 线程 安全 ， 则 必须 通过 加 锁 的 方式 。 


可 重 入 函数 可 以 由 一 个 以 上 的 任务 并 发 使 
局 变量 时 保护 自己 的 数据 。 相 


对 于 可 重 入 概念 ， 
么 在 使 
入 概念 会 影响 函数 的 外 部 接口 ， 


循 如 下 几 点 原则 : 


1) 不 为 连续 的 调用 持 有 静态 数据 ; 


者 


2) 不 返回 指向 静态 数据 的 指针 ， 所 有 数据 都 由 函 数 的 调 


3) 使 用 本 地 数据 或 者 通过 制作 全 局 数据 的 本 地 副本 来 保护 全 


任何 不 可 重 入 函数 。 


4) 绝 不 调 


建议 35: 尽量 避免 设计 多 参数 函数 


的 复杂 度 ， 


在 设计 函数 时 ， 为 了 减少 函数 间接 口 


与 此 同时 ， 参 数 的 命名 要 恰当 、 容 易 理解 。 参 数 的 顺序 要 合理 ， 并 遵循 程序 员 的 一 般 编 程 习惯 。 例 如 ， 在 一 般 情 况 下 ， 我 们 通常 将 目的 参数 放 在 前 


char * Strcopy ( char *strDest, const char *strSrc ) 


， 而 不 必 担 心 数据 错误 。 同 时 ， 可 县 
反 ， 不 可 重 入 函数 则 不 能 由 超过 一 个 任务 所 共享 ， 除 非 能 确保 函数 的 互 斥 (使 


此 在 大 多 数 情况 下 ， 要 将 不 可 重 入 函数 修改 为 可 重 入 函数 ， 需 要 修改 函数 接口 ， 使 得 所 有 的 数据 都 通过 函数 的 调 


应 该 尽量 避免 设计 多 参数 函数 。 对 于 不 使 


因此 ， 对 同一 进程 的 不 同 线程 来 说 ， 每 个 线程 的 局 


部 变量 都 是 私有 的 ， 而 


恋 量 去 Ar 
局 变量 、 局 部 静态 变 


入 函数 也 可 以 在 任意 时 刻 被 中 断 ， 稍 后 继续 运行 ， 


也 不 


量 或 者 在 代码 的 


互 斥 信 


担心 丢失 数据 。 
关键 部 分 禁 


此 ， 可 重 入 函数 


么 使 


中 断 ) 


。 在 通常 情况 下 ， 因 为 


的 参数 应 该 坚决 去 掉 ， 从 而 保证 参数 的 简单 性 。 


者 提供 。 与 此 同时 ， 要 编写 可 重 入 函数 ， 还 需 


遵 


面 ， 源 参数 放 在 后 


面 。 如 下 


面 的 strcopy 函 数 所 示 : 


建议 35-1: 没有 参数 的 函数 必须 使 用 void 填充 


在 C 语 言 中 ， 关 键 字 void 的 主要 作用 有 如 下 两 个 : 


1) 对 函数 返回 的 限定 ; 


2) 对 函数 参数 的 限定 。 


在 函数 设计 中 ， 如 果 函 数 没 有 参数 ， 或 者 函数 不 允许 接受 参数 ， 则 必须 使 


关键 字 void 进行 填充 。 看 下 面 这 个 示例 函数 : 


到 


从 表面 上 看 ， 函 数 f() 没有 参数 ， 也 就 是 说 ， 它 不 允许 接收 任何 参数 。 但 事实 并 非 如 此 ， 因 为 函数 f () 的 参数 为 空 ， 又 没有 使 用 关键 字 void 进行 限定 。 那 么 ， 理 论 上 认为 这 个 函数 可 以 接受 未 知 个 数 
的 参数 ， 或 者 说 这 个 函数 可 接受 任意 多 的 参数 。 为 了 验证 这 一 点 ， 继 续 看 下 面 的 代码 示例 : 


#include <stdio.h> 
Tt EA 
{ 

return 100; 


int main (void) 
{ 
printf ("\ngsd\n", £f (200) ) ; 


对 于 上 面 的 代码 ， 或 许 你 会 说 这 样 写 是 不 合法 的 ， 但 我 们 不 得 不 承认 这 样 的 代码 确实 在 许多 编译 器 中 都 可 以 编译 ， 例 如 在 GCC 中 编译 的 结果 如 图 4-4 所 示 。 


如 图 4-4 所 示 ， 编 译 结果 输出 为 100， 这 说 明 可 以 向 无 参数 的 函数 传送 任意 类 型 的 参数 。 但 是 ， 需 要 特别 注意 的 是 ， 这 样 的 代码 并 不 是 在 所 有 编译 器 中 都 能 够 正确 编译 ， 如 在 Microsoft Visual Studio 
2010 的 VC++ 中 编译 这 段 代 码 就 会 报错 ， 如 图 4-5 所 示 。 


[mawei@mawei “| 下 cd /home/mawei/c 
[mawei@mawei cl 和 $ gcc -o Test Test.c 


[mawei@mawei c]$ . /Test 


100 
[mawei@mawei cl]$ 国 


4-4 在 GCC 中 函数 f () 的 编译 结果 


Error List 


© 2 Errors A 0 Warnings 用 


Description 


@ 1 error C2660: f :function does not take 1 arguments 


2 IntelliSense: too many arguments in function call 


图 4-5 在 VC++ 中 函数 f () 的 编译 结果 


由 此 可 见 ， 为 了 提高 程序 的 统一 性 、 安 全 性 与 可 读 性 ， 我 们 对 没有 参数 的 函数 必须 使 用 关键 字 void 进行 填充 与 限定 。 如 下 面 的 代码 所 示 : 


int f (void) 
{ 


return 100; 
} 


这 样 在 使 用 关键 字 void 进 行 填充 与 限定 之 后 ， 无 论 现在 使 用 什么 编译 器 ， 像 f (200) 这 样 的 调用 都 不 会 成 功 ， 必 须 使 用 () 的 形式 进行 调用 。 如 下 面 的 示例 代码 所 示 : 


int main (void) 
{ 

printf ("\nsd\n®, £ (200) ) » 

/* 正 确 调用 方法 : printf ("\n%d\n", f ());*/ 
} 


示例 代码 的 编译 结果 如 图 4-6 所 示 。 


mawei@mawei:~/c 


文件 (F) 编辑 ([E) 查看 (V)j 搜索 (5S) 终端 (T) 帮助 (H) 
[mawei@mawei “|]$ cd /home/maweijc 
[mawei@mawei cj$ gcc -0 Test Test.c 


Test.c: 在 图 数 main 中 : 
Test.c:8:1: 销 误 : 提供 给 函数 下 的 实 参 太 多 
Test.c:2:5: 附注 : 在 此 声明 


[mawei@mawei cl]$ 国 


图 4-6 ”示例 代码 的 编译 结果 


建议 35-2: 尽量 避免 在 非 调度 函数 中 使 用 控制 参数 


在 函数 设计 中 ， 我 们 可 以 将 函数 简单 地 分 为 两 大 类 : 调度 函数 与 非 调度 函数 ( 非 调 度 函 数 一 般 也 称 为 功能 函数 或 实现 函数 ) 。 


所 谓 的 调度 函数 是 指 根据 输入 的 消息 类 型 或 控制 命令 来 启动 相应 的 功能 实体 〈 即 函数 或 过 程 ) 的 函数 。 调 度 函 数 本 身 不 能 提供 功能 实现 ， 相 反 ， 它 必须 委托 给 实现 函数 来 完成 具体 的 功能 。 也 就 是 说 ， 
调度 型 函数 永远 只 关注 “what to do”， 而 “how to do” 则 是 由 实现 函数 来 关心 的 ， 调 度 函 数 不 需 要 关心 “how to do”。 这 种 调度 函数 与 实现 函数 的 分 离 设 计 也 满足 了 单一 职责 的 原则 ， 即 调度 的 不 实 


现 ， 实 现 的 不 调度 。 


对 调度 函数 来 计 ， 控 制 参数 是 指 改变 函数 功能 行为 的 参数 ， 即 函数 要 根据 此 参数 来 决定 具体 怎样 工作 。 然 而 ， 如 果 在 非 调 度 函 数 中 也 使 用 控制 参数 来 决定 具体 怎样 工作 ， 那 么 这 样 做 无 疑 会 增加 函数 间 


的 控制 厅 合 ， 很 可 能 使 肖 数 间 的 奈 合 度 增 大 ， 并 使 疯 数 的 功能 不 唯一 ， 违 背 了 函数 功能 的 单一 原则 。 示 例 代码 如 下 : 


int Calculate ( int a, int b, const int calculate flag ) 
{ 

int sum=0; 

switch (calculate flag) 

{ 

Case 1: 
sum=a + b; 
break; 

Case 2: 
Sum=a -b; 
break; 

Case 3: 
Sum=a * b; 
break; 

Case 4: 
sum=a / bi; 
break; 

default: 
Printf (“error\n") ; 
break; 

} 


return sum; 


上 面 的 函数 虽然 看 起 来 很 简洁 ， 实 际 上 这 种 设计 是 不 合理 的 。 由 于 控制 参数 calculate flag 的 原因 ， 使 函数 间 的 耦合 度 增 大 ， 也 违背 了 函数 的 功能 单一 原则 。 因 
码 如 下 : 


此 ， 不 如 分 为 如 下 4 个 函数 清晰 ， 示 例 代 


int RaAdd (int a, int b) 
{ 


return a + bi 


} 
int Sub (int a, int b) 
{ 


return a - b; 


} 
int Mul (int a, int b) 
{ 
return a * bi 
i 


int Div (int a, int b) 


returna / bi; 


} 


由 此 可 见 ， 我 们 应 该 在 非 调度 函数 中 避免 使 用 控制 参数 ， 而 尽量 只 使 用 数据 参数 。 


建议 35-3: 避免 将 函数 的 参数 作为 工作 变量 


在 函数 设计 中 ， 我 们 应 该 避免 将 函数 的 参数 作为 工作 变量 ， 因 为 这 样 有 可 能 错误 地 改变 参数 内 容 ， 示 例 代码 如 下 : 


void Sum index ( size t index, size t sum ) 
{ 

Size t 入 ; 

sum=0; 

for (i= 1; i <= index; i++) 


{ 


/* 参 数 sum 成 了 工作 变量 */ 


Sum += i; 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/teac 


很 显然 ， 上 面 的 函数 将 参数 sum 作 为 工作 变量 是 有 问题 的 。 当 然 ， 对 必须 改变 的 参数 ,我们 可 以 先 用 局 部 变量 代 之 ， 最 后 再 将 该 局 部 变量 的 内 容 赋 给 该 参数 。 示 例 代码 如 下 : 


void Sum index Size t index, size t sum ) 
{ 
size 七 i; 
size t tmp=0; 
for (i= 1; i <= index; i++) 
{ 
tmp += i; 
} 
Sum=tmp; 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/teac 


建议 35-4: 使 用 const 防 止 指 针 类 型 的 输入 参数 在 函数 体内 被 意外 修改 


对 于 关键 字 const， 建 议 11 中 就 已 经 详细 阐述 过 相关 作用 。 在 函数 声明 中 ， 如 果 函 数 参数 是 指针 类 型 且 仅 用 作 输 入 ， 那 么 应 该 在 类 型 前 加 const， 以 防止 该 指针 在 函数 体内 被 意外 修改 。 示 例 代 码 如 下 : 


char *Strcopy (char *strDest, const char *strSrc) 

{ 
assert ( (strDest! =NULL) && (strSrc ! =NULL) ) ; 
char *tmp = strDest; 


while ( (*strDest++ = * strSrct+) ! ='\0' ) 
NULL ; 
} 
return tmp ; 


在 上 面 的 Strcopy 函 数 中 ，strSrc 为 输入 参数 ，strDest 为 输出 参数 。 为 strSrc 参 数 加 上 const 修 饰 后 ， 可 以 防止 该 指针 在 函数 体内 被 意外 修改 。 


建议 36: 没有 返回 值 的 函数 应 声明 为 void 类 型 


5 语言 的 早期 版 本 中 包含 一 种 特性 ， 这 种 特性 被 称 为 “ 隐 含 的 int 规 则 ”。 该 规则 规定 : 在 没有 明确 的 类 型 修饰 符 的 情况 下 ， 即 默认 为 int 类 型 。C89 标 准 也 包含 了 这 条 规则 ， 但 C99 将 其 取消 了 (C++ 也 
不 支持 该 规则 ) 。 该 规则 不 仅 可 以 用 到 函数 的 返回 类 型 上 ， 而 且 可 以 用 到 函数 的 参数 类 型 上 ， 例 如 下 面 的 示例 代码 在 C89 以 及 以 前 的 标准 中 都 是 合法 的 : 


Rdd (a, b) 
{ 
return a + b; 


Sub (int a, int b) 
{ 

returna- b; 
} 


int main (void) 


printf ( "2 + 3 = %d\n 04 2 3 } 
printf ( "3 ~- 2 = 4 sub 3 2 
return 0 


示例 代码 的 编译 结果 如 图 4-7 所 示 。 


mawei@mawei c$ gcc -0 Test Test.c 


mawei@mawei c$ . /Test 
3 = 

攻 : 一 浊 : 二 

mawei@mawei c$ 国 


图 4-7 在 GCC 中 编译 “ 隐 含 的 int 规 则 ”示例 


尽管 上 面 的 程序 在 C89 及 以 前 的 标准 中 都 是 合法 的 ， 但 我 们 不 得 不 注意 的 是 ， 这 样 的 写法 常常 会 被 许多 程序 员 误 以 为 其 为 void 类 型 。 因 此 ， 为 了 避免 混乱 ， 在 编写 C/C+ + 程序 时 ， 对 于 任何 函数 都 必须 
一 个 不 漏 地 指定 其 返回 值 类 型 。 如 果 函 数 没有 返回 值 ， 一 定 要 声明 为 void 类 型 。 这 既是 程序 良好 可 读 性 的 需要 ， 也 是 编程 规范 性 的 要 求 。 另 外 ， 加 上 void 类 型 声明 后 ， 也 可 以 发 挥 代码 的 “ 自 注释 ”作用 。 
代码 的 “ 自 注释 ” 即 代 码 能 自己 注释 自己 。 


建议 37: 确保 函数 体 的 “入 口 ” 与“ 出口 ”安全 性 


在 函数 设计 中 ， 我 们 应 该 在 函数 体 的 “入 | 


处 ”和 “出 [ 


建议 37-1: 尽量 在 函数 体 入 口 处 对 参数 做 有 效 性 检查 


在 函数 设计 中 ， 很 多 程序 错误 往往 是 由 非法 参数 引起 的 。 


类 错误 ， 代 码 如 下 : 


此 我 们 应 该 在 函数 的 入 口 


处 ”从 严 把 关 ， 从 而 提高 函数 的 质量 。 


处 对 参数 做 有 效 性 检查 ， 从 而 确保 函数 入 口 


参数 的 安全 性 。 下 面 的 示例 演示 如 何 利 


“断言 " 


(assert) 来 防止 此 


char *Strncopy (char *dest, 
{ 
assert ( (dest! =NULL) 
Char *retAddr = dest; 
Ds 
while ( ( (* (dest++) 
{ 


} 
* (retAddr+size) ="'\0'; 
return retAddr; 


const char *sre, 


* (Bret++) } 


size t size) 


&& (src! =NULL) ) ; 


! ='\0') 8&& ( (i++) < size) 


Y 


建议 37-2: 尽量 在 函数 体 出 口 处 对 return 语 句 做 安全 性 检查 


在 函数 设计 中 ， 如 果 函 数 有 返回 值 ， 那 么 一 定 不 要 轻视 函数 出 口 


处 的 return 语 句 。 如 果 return 语 句 写 得 不 好 ， 函 数 要 么 H 


查 。 
一 般 情况 下 ， 函 数 定义 为 什么 样 的 返回 类 型 ， 该 函数 中 return 语 句 后 就 应 该 是 相应 类 型 的 值 。 但 return 语 句 后 面具 体 是 什么 内 容 ， 
点 建议 : 


“ 要 杭 清 楚 返 回 的 究竟 是 “ 值 ” 


“指针 ”还 是 “引用 ”。 


' 在 返回 类 型 是 char 的 函数 中 ，return 语 句 后 也 应 该 是 char 类 型 的 值 。 


“ 在 返回 类 型 是 int 的 函数 中 ， 如 果 要 停止 调用 函数 ，return 语 句 最 好 返回 0。 其 他 的 按照 目的 而 定 ， 只 要 是 int 类 型 即 可 。 


“ 在 返回 类 型 是 结构 类 型 的 函数 中 ，return 语 身后 应 该 是 结构 的 一 个 实例 对 象 。 


“return 语 句 不 可 返回 指向 “ 栈 内 


存 


”的 “指针 ”或 “引用 ”， 因 为 该 内 存在 函数 体 结束 时 被 自动 销毁 。 


示例 代码 如 下 : 


根 


还 需 居 


错 ， 要 么 效率 低下 。 因 此 ， 我 们 必须 在 函数 体 出 口 处 对 return 语 句 做 安全 性 检 


体 情况 进行 分 析 。 在 实际 程序 编写 中 ， 尤 其 


要 注意 如 下 5 


char *GetHello (void) 

{ 
char p[] = "hello world"; 
return p; 

} 

int 

{ 
Char *str=NULL; 
str=GetHello () ; 
Printf ("%s", str) ; 
return 0; 


main (void) 


在 上 面 的 代码 中 ， 函 数 GetHello () 中 定义 的 变量 p 


可 以 通过 如 下 几 种 办 法 解决 : 


因 


1) 最 简单 的 办 法 就 是 将 变量 p 定 义 为 全 局 变 


2) 在 函数 GetHello () 中 使 


char *GetHello (void) 
{ 
char *p=NULL; 


p= (char *) malloc (100) ; 


return p; 
main (void) 


char *str=NULL; 
str=GetHello () ; 


strcpy (str, "hello world" 


Brintf ("%e™, 
free (str) ; 
return 0; 


Str) 3 


ys 


’ 


为 全 局 变量 在 程序 结束 时 才 会 释放 。 但 值得 我 们 注意 的 是 ， 这 样 也 


因 


malloc () 函数 来 动态 分 配 内存 ， 但 一 定 要 记得 释放 内 存 。 示 例 代 码 如 下 : 


此 导致 函数 不 可 重 入 。 


属于 局 部 变量 ， 而 局 部 变量 是 分 配 在 栈 上 的 ， 当 函数 结束 时 将 会 自动 销毁 。 所 以 在 函数 最 后 执行 return 语 名 返回 时 ， 根 本 就 得 不 到 p 所 指 的 内 容 。 当 


3) 可 以 将 变量 p 声 明 为 static 静 态 变量 。 


与 全 


局 变量 一 样 ， 这 样 同样 会 导致 函数 不 可 重 入 。 示 例 代 码 如 下 : 


char *GetHello (void) 


static char p[]="hello wo 
return p; 


ole 


4) 使 


字符 串 常量 ， 


为 字符 串 常量 存储 在 静态 存储 


区 域内 ， 所 以 一 直 都 存在 。 示 例 代 码 如 下 : 


char *GetHello (void) 

{ 
char *p = "hello world"; 
return p; 


} 


如 上 面 的 代码 所 示 ， 


因为 “hello world” 是 一 个 字符 串 常量 ， 存 储 在 静态 存储 


区 域内 ， 并 且 同 时 将 该 字符 


在 内 存 并 不 会 被 回收 ， 所 以 能 够 通过 指针 顺利 无 误 地 访问 。 


常量 存放 的 静态 数据 


区 的 首 地 址 赋值 给 指针 


。 当 函数 GetHello () 退出 时 ,该 


字 


符 呈 


而 对 上 面 的 “char p[= "hello world"” 来 说 ,它们 存在 着 很 大 的 区 别 。p[] 是 一 个 数组 ， 它 与 函数 的 参数 、 局 部 变量 一 样 ， 都 是 分 配 在 栈 上 的 ， 所 以 当 函 数 结束 时 将 会 自动 销毁 。 


建议 38: 在 调用 函数 时 ， 必 须 对 返回 值 进行 判断 ， 同 时 对 错误 的 返回 值 还 要 有 相应 的 错误 处 理 


在 程序 设计 中 ， 调 用 一 个 函数 之 后 ， 必 须 检 查 函 数 的 返回 值 ， 以 决定 程序 是 继续 应 用 逻辑 处 理 还 是 进行 出 错 处 理 。 同 时 ， 这 也 带 来 了 一 系列 设计 问题 : 如 果 出 错 了 怎么 办 ? 错误 如 何 表达 ? 该 如 何 定义 


出 错 处 理 的 准则 或 机 制 ? 


很 显然 ， 如 果 一 个 项 目 没有 一 种 有 效 的 方法 表达 一 个 错误 ， 就 会 出 现 对 于 出 错 处 理 的 混乱 状况 。 与 此 同时 ， 在 大 型 项 目 中 ， 如 果 出 现 错误 ， 仪 仅 通 过 C 库 中 已 经 定义 的 那么 几 个 错误 码 并 不 介 


应 用 错误 。 因 此 ， 我 们 需要 针对 不 同 的 错误 采用 完全 不 同 的 出 错 处 理 方法 ， 设 计 出 适合 自己 的 出 错 处 理 机 制 。 至 于 如 何 设计 ， 具 体 方法 将 在 本 书 的 后 面 章节 详细 阐述 。 


建议 39: 尽量 减少 函数 本 身 或 者 函数 间 的 递归 调用 


递归 作为 一 种 算法 在 程序 设计 语言 中 被 广泛 应 用 ， 简 单 地 齐 ， 递 归 就 是 函数 调用 自己 ， 或 者 在 自己 函数 调用 的 下 级 函数 中 调用 自己 。 示 例 代码 如 下 : 


外 有 效 表 达 


long fab (const int index) 
if (index == 1 || index == 2) 


return 1; 


return fab (index-1) +fab (index-2) ; 


递归 之 所 以 能 实现 ， 是 因为 函数 的 每 个 执行 过 程 都 在 堆栈 中 有 自己 的 形 参 和 局 部 变量 的 副本 ， 而 这 些 副本 和 函数 的 其 他 执行 过 程 毫 不 相干 。 所 以 递归 函数 有 一 个 最 大 的 缺陷 ， 那 就 是 增加 了 系统 的 开 


销 。 因 为 每 调用 一 个 函数 ， 系 统 就 需要 为 函数 准备 堆栈 空间 用 于 存储 参数 信息 ， 如 果 频 繁 进行 递归 调用 ， 系 统 需要 为 其 开辟 大 量 的 堆栈 空间 。 


与 此 同时 ， 递 归 调 用 特别 是 函数 间 的 递归 调用 ， 会 大 大 影响 程序 的 可 理解 性 。 因 此 ， 我 们 在 程序 设计 中 应 该 尽量 使 用 其 他 算法 来 蔡 代 递 归 算 法 。 下 面 的 示例 演示 了 如 何 使 用 迭代 算法 来 蔡 代 递 归 算 法 : 


long fab (const int index) 

if (index == 1 || index == 2) 
return 1; 
else 


long 11 = 1L; 
long 12 = 1L; 
long 13 = 0; 
/* 闪 代 求 值 */ 
for (int i = 0; i < index-2; i ++) 
i 
13 与 十 12 
11 = 12; 
12 = 13; 


return 13; 


在 很 多 时 候 ， 因 为 递归 需要 系统 堆栈 ， 所 以 空间 消耗 要 远 比 非 递归 代码 大 很 多 。 而 且 ， 如 果 递 归 深 度 太 大 ， 可 能 会 导致 系统 资源 不 够 用 。 因 此 大 家 都 有 这 样 一 个 观点 : 能 不 用 递归 算法 就 不 
法 ， 递 归 算 法 都 可 以 用 迭代 算法 来 代 蔡 。 


递归 算 


从 某 种 程度 上 讲 ， 递 归 算 法 确实 是 方便 了 程序 员 ， 而 难为 了 机 器 。 递 归 可 以 通过 数学 公式 很 方便 地 转换 为 程序 ， 其 优点 就 是 易 理解 ， 容 易 编程 。 但 递归 是 用 堆栈 机 制 实现 的 ， 每 深入 一 层 ， 者 
块 堆栈 数据 区 域 。 因 此 ， 对 谱 套 层 数 深 的 一 些 算法 ， 递 归 就 会 显得 力不从心 ， 空 间 上 也 会 以 内 存 崩溃 而 告终 。 同 时 ， 因 为 递归 带 来 了 大 量 的 函数 调用 ， 这 增加 了 许多 额外 的 时 间 开销 。 


了 要 占 去 一 


在 理论 上 ， 虽 然 递归 算法 和 和 迭 代 算 法 在 时 间 复 杂 度 方面 是 等 价 的 (在 不 考虑 函数 调用 开销 和 函数 调用 产生 的 堆栈 开销 ) 。 但 在 实际 开发 环境 中 上 ， 递 归 算 法 确实 要 比 迭 代 算法 效率 低 许多 。 但 是 不 得 不 
注意 的 是 ， 虽 然 迭代 算法 比 递 归 算 法 在 效率 上 要 高 一 些 ( 它 的 运行 时 间 只 会 因 循 环 次 数 增加 而 增加 ， 没 什么 额外 开销 ， 空 间 上 也 没有 什么 额外 的 增加 ) ， 但 我 们 又 不 得 不 承认 ， 将 递归 算法 转换 为 迭代 算法 


的 代价 通常 都 是 比较 高 的 ， 而 且 ， 并 不 是 所 有 的 递归 算法 都 可 以 转换 为 迭代 算法 。 同 时 ， 和 迭 代 算 法 也 存在 着 不 容易 理解 ， 编 写 复杂 问题 时 困难 等 问题 。 


因此 ，“ 能 不 用 递归 算法 就 不 用 递归 算法 ， 递 归 算 法 都 可 以 用 友 代 算法 来 代 蔡 ”这 样 的 理解 ， 还 是 应 该 辩证 看 待 ， 切 不 能 一 概 而 论 。 一 般 而 言 ， 采 用 递归 算法 需要 的 前 提 条 件 是 当 且 仅 当 一 个 存在 预期 


的 收敛 时 ， 才 可 采用 递归 算法 ; 否则， 就 不 能 使 用 递归 算法 。 


建议 40: 尽量 使 用 inline 内 联 函 数 来 替代 #define 宏 


在 C 语 言 中 ， 函 数 的 调用 必须 将 程序 执行 的 顺序 转移 到 函数 所 存放 在 内 存 中 的 某 个 地 址 ， 在 将 函数 的 程序 内 容 执行 完 之 后 ， 
记忆 执行 的 地 址 ， 在 转 回 后 要 先 恢复 现场 ， 并 按 原来 保存 地 址 继续 执行 。 


返回 到 转 去 执行 该 函数 前 的 地 方 。 这 种 转移 操作 要 求 在 转 去 前 保护 现场 并 


函数 调用 也 因此 增加 了 一 定 的 时 间 和 空间 方面 的 开销 ， 当 然 也 就 影响 了 程序 的 执行 效率 。 特 别 是 对 一 些 函 数 体 代码 不 是 很 大 又 频繁 被 调用 的 函数 来 讲 ， 解 决 这 种 效率 问题 就 显得 更 为 重要 。 而 宏 在 预 处 


理 的 地 方 把 代码 展开 ， 不 需要 额外 的 空间 和 时 间 方面 的 开销 ， 所 以 调用 一 个 宏 比 调用 一 个 函数 更 有 效率 。 尽 管 如 此 ， 宏 也 存在 着 许多 问题 : 


首先 ， 宏 的 定义 很 容易 产生 二 义 性 ， 来 看 下 面 这 个 示例 : 


#define Mul (x) (x*x) 


定义 好 Mul 宏 之 后 ， 我 们 就 可 以 使 用 一 个 数字 去 调用 它 “Mul (20) ”,， 示例 代码 如 下 : 


Printf ("$d\n", Mul (20) ) ; 


上 面 的 代码 运行 结果 为 400， 很 显然 这 样 的 调用 并 没有 什么 错误 。 但 是 如 果 我 们 用 “Mul (10+10) ”去 调用 ， 问 题 就 出 来 了 ， 示 例 代 码 如 下 : 


printf ("%d\n", Mul (10+10) ) ; 


在 表达 式 “Mul (10+10) ”中 ， 我 们 期 望 的 结果 是 400， 但 上 面 的 示例 代码 输出 的 结果 却 是 120 ( 即 (10+10*10+10) ) ， 这 显然 不 是 我 们 想 要 得 到 的 结果 。 为 了 避免 发 生 这 种 错误 ， 可 以 为 宏 的 参 
数 都 加 上 括号 ， 示 例 代 码 如 下 : 


#define Mul (x) ( (x) * (x) ) 


这 样 就 可 以 确保 类 似 “Mul (10+10) ”这 样 的 调用 不 发 生 错误 。 虽然 如 此 ， 这 个 宏 还 是 有 可 能 出 错 ， 示 例 代码 如 下 : 


int i=10; 
printf ("%d\n", Mul (++i) ) ; 


在 上 面 的 示例 代码 中 ， 本 意 是 希望 得 到 ”(i+1) * (i+1) ”的 结果 ， 但 程序 最 终 输出 结果 是 144， 显 然 被 增加 了 两 次 。 


其 次 ， 与 函数 不 一 样 的 是 ， 宏 定义 是 不 可 以 调试 的 ， 也 因此 给 测试 代码 带 来 了 一 定 的 麻烦 。 由 此 可 见 ， 虽 然 宏 在 一 定 程度 上 提高 了 程序 的 执行 效率 ， 但 也 存在 着 一 些 难以 避免 的 问题 ， 而 引入 inline 内 联 
函数 实际 上 就 是 为 了 解决 这 些 问题 。 


在 C 语 言 中 ， 原 本 是 不 支持 inline 的 ， 但 C++ 中 原生 对 inline 的 支持 让 很 多 C 编 译 器 也 为 C 语 言 实现 了 一 些 支 持 inline 语 义 的 扩展 。 与 此 同时 ，C99 将 inline 正 式 放 入 标准 C 语 言 中 ， 并 提供 了 inline 关 键 字 。 
和 C++ 中 的 inline 一 样 ，C 语 言 引入 inline 的 目的 是 解决 程序 中 函数 调用 的 效率 问题 。 


对 宏 定义 来 讲 ， 宏 是 由 预 处 理 器 对 宏 进行 蔡 代 ， 而 内 联 函数 则 是 通过 编译 器 控制 来 实现 的 ; 与 此 同时 ， 内 联 函 数 是 真正 的 函数 ， 在 需要 用 到 的 时 候 ， 内 联 函数 像 宏一 样 展开 ， 所 以 取消 了 函数 的 参数 压 
栈 ， 减 少 了 调用 的 空间 开销 。 并 且 可 以 像 调 用 函数 一 样 来 调用 内 联 函数 ， 而 不 必 担心 会 产生 处 理 宏 的 一 些 问题 。 


但 不 得 不 注意 的 是 ， 在 程序 编译 时 ， 编 译 器 将 程序 中 出 现 的 内 联 函数 的 调用 表达 式 用 内 联 函数 的 函数 体 来 进行 替换 。 显 然 ， 这 种 做 法 不 会 产生 转 去 转 回 的 问题 ， 但 是 由 于 在 编译 时 函数 体 中 的 代码 被 蔡 
代 到 程序 中 ， 因 此 会 增加 目标 程序 代码 量 ， 进 而 增加 空间 开销 。 因 此 ， 对 于 inline 内 联 函 数 的 使 用 ， 我 们 还 需要 注意 如 下 几 点 : 


1) 在 内 联 函 数 内 不 允许 用 循环 语句 与 开关 语句。 


2) 递归 函数 不 能 用 作 内 联 函 数 。 


3) 内 联 函数 的 定义 必须 出 现在 内 联 函 数 第 一 次 被 调用 之 前 。 


4) 内 联 函数 只 适合 于 1~ 5 行 语句 的 小 函数 ， 而 对 于 一 个 含有 很 多 语句 的 大 函数 ， 函 数 调用 和 返回 的 开销 相对 来 说 是 微不足道 的 。 


第 5 章 不 会 使 用 指针 的 程序 员 是 不 合格 的 


在 C 语 言 中 ， 指 针对 程序 员 来 讲 可 谓 是 “一 半 是 天 堂 ， 一 半 是 地 狱 ”。 一 方面 ， 指 针 为 函数 提供 修改 调用 变 元 的 手段 ， 支 持 动态 分 配子 程序 ， 可 以 改善 某 些 子 程序 的 效率 ， 还 支持 动态 数据 结构 (例如 
二 叉 树 和 链表 ) ; 另 一 方面 ， 含 有 无 效 指针 可 能 导致 系统 瘫 并 ， 不 正确 地 使 用 指针 容易 引入 难以 排除 的 程序 错误 。 


由 此 可 见 ， 指 针 不 仅 是 语言 中 最 强 的 特性 之 一 ， 同 时 也 是 最 危险 的 特性 之 一 。 本 章 将 重点 论述 针对 指针 的 一 些 常用 建议 ， 其 中 包括 野 指 针 、 指 针 表 达 式 、 指 针 运 算 等 。 


建议 41: 理解 指针 变量 的 存储 实质 


相信 大 家 都 知道 这 样 一 个 学 习 指针 的 观点 : 要 想 彻 底 理解 C 语 言 中 的 指针 ， 首 先 一 定 要 理解 C 语 言 中 变量 的 存储 实质 。 谈 到 变量 的 存储 ， 我 们 就 不 得 不 先 说 说 计算 机 的 内 存 概念 。 计 算 机 的 内 存 是 一 个 


于 存储 数据 的 空间 ， 由 一 系列 连续 的 存储 单元 组 成 ， 它 就 好 像 电 影院 中 的 座位 一 样 ， 如 图 5-1 所 示 。 


10000 10001 10002 10003 10004 100053 10006 10007 10008 10009 


| 


图 5-1 内 存 中 某 一 区 域 的 编号 


在 电影 院 中 ， 为 了 保证 大 家 能 够 快速 找到 自己 的 座位 ， 每 个 座位 都 用 一 个 唯一 的 编号 来 标识 。 而 对 计算 机 内 存 来 说 ， 它 同样 需要 像 座 位 一 样 编号 ， 这 样 我 们 才能 够 知道 内 存 中 的 数据 存放 在 什么 位 置 ， 
这 就 是 我 们 所 说 的 内 存 编 址 。 如 图 5-1 所 示 ， 每 一 个 内 存单 元 都 有 一 个 唯一 的 地 址 ， 系 统 根据 这 个 地 址 来 识别 内 存单 元 ， 在 地 址 所 标识 的 存储 单元 中 存 取 数 据 。 在 这 里 ， 我 们 需要 分 清 两 个 概念 : 


[ 


“ 内 存单 元 的 地 址 。 如 图 5-1 中 的 编号 (如 10000、10001 等 ) ， 通 过 引用 这 些 不 同 的 地 址 编号 ， 我 们 就 可 以 使 用 不 同 内 存单 元 中 存储 的 数据 。 值 得 注意 的 是 ， 内 存单 元 的 地 址 是 固定 的 ， 在 程序 中 不 能 修 


改 。 


“ 内 存单 元 中 的 数据 。 如 图 5-2 中 的 表格 内 的 数据 ， 编 号 为 10000 的 内 存单 元 保存 的 数据 为 119， 编 号 为 10001 的 内 存单 元 保存 的 数据 为 120， 编 号 为 10002 的 内 存单 元 保存 的 数据 为 121。 与 内 存单 元 的 地 址 


不 同 ， 内 存单 元 中 的 数据 是 可 以 被 程序 修改 的 ， 例 如 ， 可 以 在 程序 中 将 编号 为 10001 的 内 存单 元 的 值 由 120 修 改 为 122。 


10000 10001 10002 10003 10004 10003 10006 10007 10008 10009 


图 5-2 ”内 存单 元 中 的 数据 


在 了 解 计算 机 内 存 之 后 ， 下 面 来 看 看 C 语 言 中 的 变量 是 如 何 存储 的 ， 如 下 面 的 代码 所 示 : 


int i; 
Ca Cs 


在 上 面 的 代码 中 ， 我 们 声明 了 两 个 变量 ， 它 们 将 要 求 系统 在 内 存 中 分 配 一 个 类 型 为 int 型 的 存储 空间 和 一 个 类 型 为 char 型 的 存储 空间 。 因 此 ， 执 行 上 面 两 个 语句 后 ， 内 存 中 的 映像 可 能 如 图 5-3 所 示 。 


10000 10001 10002 10003 10004 10003 10006 10007 10008 10009 


图 5-3 ”变量 的 存储 


如 图 5-3 所 示 ， 在 32 位 计算 机 中 ，int 类 型 的 变量 占用 4 字 节 ( 即 图 5-3 中 编号 为 10000~10003， 共 4 个 存储 单元 ) ，char 类 型 的 变量 占用 1 字 节 ( 即 图 中 编号 为 10004 的 存储 单元 ) 。 其 实 这 里 很 容易 看 
出 ， 变 量 名 实质 上 就 是 内 存单 元 地 址 的 一 个 符号 ， 如 变量 i 代表 内 存 地 址 10000 (变量 所 占 内 存单 元 的 首 地 址 ) ， 而 变量 c 代 表 内 存 地 址 10004。 当 用 户 使 用 变量 时 ， 本 质 上 是 访问 该 变量 所 对 应 的 内 存单 元 。 


在 申请 变量 之 后 ， 接 下 来 需要 为 变量 赋值 ， 如 下 面 的 代码 所 示 : 


i=100; 
C='W'; 


对 于 上 面 的 赋值 语句 ， 相 信 大 家 都 能 够 很 好 地 理解 ， 它 表示 将 整 型 常量 100 保 存 到 变量 i 中 (实质 上 是 将 100 保 存 到 内 存 地 址 10000 为 起 始 地 址 的 4 个 存储 单元 中 ) ， 而 将 字符 常量 w 保 存 到 变量 c 中 (实质 
上 是 将 w 保 存 到 内 存 地 址 为 10004 的 存储 单元 中 ) 。 因 此 ， 在 执行 上 面 的 语句 后 ， 我 们 可 以 利用 这 样 的 形象 来 理解 ， 如 图 5-4 所 示 。 


10000 10001 10002 10003 10004 10003 10006 10007 10008 10009 


图 5-4 变量 赋值 后 的 存储 


看 到 图 5-4， 你 或 许 会 问 ， 为 什么 内 存 地 址 为 10004 的 存储 单元 存储 的 是 119， 而 不 是 w 呢 ? 这 很 简单 ， 字 符 常量 保存 的 是 其 ASCIl 码 值 ， 所 以 在 编号 为 10004 的 内 存单 元 中 保存 的 是 字符 常量 w 的 ASCII 码 


1 


变量 突 音 : 


到 现在 为 止 ， 相 信 你 对 变量 的 申请 与 赋值 的 内 存 分 配 变化 都 有 了 一 定 的 了 解 。 那 么 我 们 现在 反 过 来 继续 问 ， 变 量 究竟 存储 在 哪里 ， 我 们 要 如 何 得 到 变量 的 存储 地 址 呢 ? 


要 想 知道 变量 的 存储 地 址 ， 就 需要 用 到 运算 符 “&” 了 ， 使 用 该 运算 符 可 获得 变量 的 内 存单 元 地 址 (如 果 变量 占用 多 个 内 存单 元 ， 将 得 到 首 地 址 ) 。 例 如 ， 要 在 屏幕 上 显示 上 面 的 变量 ;与 的 地 址 值 ， 可 


以 使 用 如 下 代码 : 


printf ("“%x\n", &i) ; 
printf ("%x\n", &c) ; 


多 个 内 存单 元 ， 将 得 到 首 地 址 ) 。 同 理 ， 显 示 的 不 是 c 值 w， 而 是 显示 c 的 内 存 地 址 编号 


这 里 以 上 面 图 中 的 内 存 映像 为 例 ， 屏 幕 上 显示 的 不 是 i 值 100， 而 是 显示 i 的 内 存 地 址 编号 10000 ( 即 如 果 变 量 占 
10004。 当 然 ， 在 实际 操作 中 ， 变 量 j 与 w 的 地 址 值 不 会 是 这 个 数 了 。 


了 解 变 量 的 存储 与 地 址 之 后 ， 现 在 我 们 可 以 来 看 看 指针 的 概念 了 。 


在 C 语 言 中 ， 将 内 存单 元 的 编号 或 地 址 称 为 指针 。 可 通过 一 个 变量 来 存放 指针 ， 这 种 变量 称 为 指针 变量 。 因 此 ， 一 个 指针 变量 的 值 就 是 某 个 内 存单 元 的 地 址 ,或 称 为 某 内 存单 元 的 指针 。 它 与 其 他 一 般 


变量 所 不 同 的 是 ， 一 般 的 变量 包含 的 是 实际 的 、 真 实 的 数据 ; 而 指针 只 是 一 个 指示 器 ， 它 告诉 程序 在 内 存 的 哪 块 区 域 可 以 找到 数据 。 


下 面 来 看 一 条 声明 一 个 指向 整 型 变量 的 指针 的 语句 : 


int *ps 


很 显然 ， 在 上 面 的 代码 中 声明 了 一 个 指针 变量 p。 在 执行 该 的 代码 后 ,我 们 可 以 通过 图 5-5 所 示 的 存储 结构 来 理解 (在 32 位 系统 中 ， 指 针 的 宽度 是 4 字 节 ) 。 


10000 10001 10002 10003 10004 10005 10006 10007 10008 10009 


5-5 ”指针 变量 p 的 存储 情况 


由 


网 


5-5 中 可 以 看 出 ， 指 针 变量 p 与 前 面 的 一 般 变量 与 c 并 没有 什么 本 质 的 区 别 。 那 么 ， 


它 为 什么 又 会 被 称 为 “指针 ” 呢 ? 其 实 ， 关键 是 要 看 这 个 变量 所 存储 的 内 容 是 什么 。 继 续 来 看 下 面 的 语句 : 


入 皇 坟 二 


即 上 面 的 代码 表示 把 地址 的 编号 赋值 给 指针 变量 p， 也 就 是 说 在 p 里 面 写 上 i 内 存 地 址 编号 10000 (如 果 变 量 占用 多 个 内 存单 元 ， 将 得 到 首 地 址 ) ， 


结果 图 5-6 所 示 。 


10000 10001 10002 10003 10004 10005 10006 10007 10008 10009 


指 回 内 存单 元 10000 


图 5-6 ”执行 p=&i 后 的 存储 情况 


如 图 5-6 所 示 ， 在 指针 变量 p 中 保存 变量 的 首 地 址 编号 10000， 因 此 ， 通 过 指针 变量 p 就 可 间接 访问 内 存 和 
10000， 再 通过 该 地 址 即 可 访问 对 应 的 内 存单 元 ， 这 种 访问 数据 的 方式 也 称 为 “间接 访问 ”。 


元 10000 开 始 的 4 个 内 存单 元 。 也 就 是 说 ， 程 序 先 通过 指针 变量 p 的 值 找到 变量 的 首 地 址 编号 


在 了 解 上 面 这 些 原理 之 后 ， 下 面 的 语句 就 不 难 理解 了 : 


/* 指 针 的 地 址 */ 
Bs ("%x\n", &P) 
人 指针 保存 的 地 址 */ 
i 人 
2 
Brintf (SR *p); 


以 上 面 图 中 的 内 存 结构 为 例 ， 对 于 语句 “printf ("%x\n”， ”， 很 显然 输出 的 结果 就 是 变量 p 的 首 地 址 编号 10006 ( 即 指针 的 地 址 ) ;而 对 于 语句 “printf ("%x\n”， ， 输 出 的 结果 就 是 变 
量 i 的 首 地 址 编号 10000 ( 即 指针 保存 的 地 址 ) ; 而 语句 “printf (" *p) ”输出 的 结果 就 是 变量 的 值 100 ( 即 指针 所 保存 的 地 址 的 值 ) ， 它 等 价 于 语句 “printf ("%d\n"， . ” 


最 后 来 继续 温习 一 下 指针 的 4 个 基本 概念 。 


(1) 指针 的 类 型 


从 语法 的 角度 看 ， 只 要 把 指针 声明 语句 里 的 指针 名 字 去 掉 ， 剩 下 的 部 分 就 是 这 个 指针 的 类 型 。 这 是 指针 本 身 所 具有 的 类 型 ， 如 下 面 的 代码 所 示 : 


int *p; // 指针 的 类 型 是 int* 
int **p; // 指针 的 类 型 是 int** 
int (*p) [3]; // 指针 的 类 型 是 int (*) [3] 


(2) 指针 所 指向 的 类 型 


当 通 过 指针 来 访问 指针 所 指向 的 内 存 区 时 ， 指 针 所 指向 的 类 型 决定 了 编译 器 将 把 那 片 内 存 区 里 的 内 容 当 作 什么 来 看 待 。 从 语法 上 看 ， 
符 “*” 去 掉 ， 剩 下 的 就 是 指针 所 指向 的 类 型 。 如 下 面 的 代码 所 示 : 


只 需要 将 指针 声明 语句 中 的 指针 名 字 和 名 字 左 边 的 指针 声明 


int *p; // 指针 所 指向 的 类 型 是 int 

char *p; // 指针 所 指向 的 类 型 是 char 

int **p; // 指针 所 指向 的 类 型 是 int* 

int (*p) [3]; // 指针 所 指向 的 类 型 是 int () [3] 


int * (*p) [4]; // 指针 所 指向 的 类 型 是 int* () [4] 


(3) 指针 的 值 
指针 的 值 是 指针 本 身 存储 的 数值 ， 这 个 值 将 被 编译 器 当 作 一 个 地 址 ， 而 不 是 一 个 一 般 的 数值 。 在 32 位 程序 中 


指针 所 指向 的 内 存 
的 一 片 内 存 


区 域 ;而 我 们 说 一 个 指针 指向 了 某 块 内 存 


区 域 ， 就 相当 于 说 该 指针 的 值 是 这 块 内 存 


区 域 的 首 地 址 。 


(4) 指针 本 身 所 占据 的 内 存 


办 


指针 本 身 占 了 多 大 的 内 存 ? 只 


函数 sizeof (指针 的 类 型 ) 测 一 下 就 知道 了 。 在 32 位 平台 中 ， 指 针 本 身 占 据 了 4 字 节 的 长 度 。 


建议 42: 指针 变量 必须 初始 化 


区 就 是 从 指针 的 值 所 代表 的 那个 内 存 地 址 开始 ， 长 度 为 sizeof (指针 所 指向 的 类 型 ) 的 一 片 内 存 


， 所 有 类 型 的 指针 的 值 都 是 一 个 32 位 整数 ， 


为 32 位 程序 里 内 存 地 址 全 都 是 32 位 长 。 


区 。 所 以 当 我 们 说 一 个 指针 的 值 是 XX 的 时 候 ， 就 相当 于 说 该 指针 指向 了 以 XX 为 首 地 址 


标准 C 规 定 ， 全 局 指针 变量 的 默认 值 为 NULL， 而 对 于 局 部 指针 变量 则 必须 明确 地 指定 其 初 值 。 


此 ， 与 普通 


变量 一 样 ， 指 针 变量 必须 经 过 初始 化 才能 使 用 。 


未 初始 化 的 指针 是 相当 危险 的 ， 


为 指 


针 直 接 指向 内 存 空间 ， 所 以 程序 员 很 容易 通过 未 初始 化 的 指针 来 改写 该 指针 随机 指向 的 存储 区 域 。 


与 此 同时 ， 如 果 对 未 初始 化 的 指针 进行 操作 ， 可 能 导致 系统 混乱 ， 严 时 
好 是 操作 系统 的 代码 区 域 ， 这 时 候 修 改 该 内 存 地 址 中 的 值 就 会 使 系统 崩溃 。 


的 情况 将 使 系统 崩 演 。 


由 此 可 见 , 使 


未 初始 化 的 指针 产生 的 后 果 是 不 确定 的 ， 这 完全 取决 于 程序 员 的 运气 。 如 下 面 的 代码 所 示 : 


因为 刚 定义 的 指针 变量 中 可 能 有 一 个 随机 值 ， 在 指针 变量 中 ， 该 值 表示 一 个 内 存 地 址 ， 如 果 该 内 存 地 址 正 


int main (void) 

{ 
int *p; 
printf ("%x\n", 
return 0; 


Pp); 
} 


在 VC++2010 中 ， 上 面 的 代码 在 Release 模 式 下 输出 64144714， 而 在 Debug 模 式 下 输出 cccccccc。 很 明显 未 : 
程序 崩溃 。 


台 口 | 
只 能 


因此 ， 在 定义 指针 变量 之 后 ， 必 须 为 其 赋予 具体 的 值 进行 初始 化 。 指 针 变 量 的 赋值 
始 值 为 0 是 允许 的 。 例 如 ， 下 面 的 初始 化 示例 都 是 合法 的 : 


赋予 地 址 ， 决 不 允许 


初始 化 的 指针 指向 的 是 一 个 随机 的 地 址 。 如 果 对 其 执行 写 操作 会 怎样 ? 很 有 可 能 会 直接 导致 


巴 一 个 常数 赋值 给 指针 变量 ， 否 则 也 可 能 引起 错误 。 但 这 里 值得 注意 的 是 ， 为 指针 变量 赋 初 


int i=10; 


int *p=&i; 

int *pl=0; 

int *p2="'\0"; 

int *p3=01; 

当然 ， 如 果 非 要 使 用 常量 来 初始 化 指针 变量 ， 也 不 是 不 可 以 ， 只 是 需要 进行 强制 类 型 转换 。 例 如 ， 把 int 转 换 成 (int*) ， 代 码 如 下 所 示 : 


int *p= (int *) 0x00000014; 
7 或 者 */ 
int *p= (int *) 20; 


同时 ， 对 于 未 使 用 的 指针 变量 ， 可 以 赋值 为 NULL 进 行 初始 化 ， 以 表明 它 未 指向 任何 地 方 。 如 下 面 的 示例 代码 所 示 : 
int *p=NULL; 

pats Both 

int *p; 

p=NULL; 


这 里 的 NULL 是 一 个 标准 规定 的 宏 定义 ， 例 如 ， 在 VC+ + 中 的 定义 如 下 : 


/* Define NULL pointer value */ 
#ifndef NULL 


#ifdef _ cplusplus 

#define NULL 0 

#else 

#define NULL ( (void *) 0) 
#endif 

#endif 


建议 43: 区 别 “int*p=NULL” 和 “*p=NULL” 


品 
里 


对 于 “int*p=NULL” 和 “*p=NULL”， 虽 然 它 们 看 起 来 很 相似 ， 但 是 却 存 在 着 很 大 的 本 质 区 别 。 例 如 : 


int *p = NULL; 


很 显然 ， 该 语句 表示 声明 一 个 指针 变量 P( 它 指向 的 内 存 中 保存 的 是 int 类 型 的 数 


居 ) ， 并 且 在 声明 指 


变量 p 


的 同时 将 其 初始 化 为 NULL (即将 p 的 值 设置 为 0x00000000) 。 


这 里 需要 特别 注意 的 是 ， 上 面 的 语句 是 将 p 的 值 设置 为 0x00000000， 而 不 是 将 *p 的 值 设 置 为 0x00000000。 


此 ， 这 时 候 可 以 通过 编译 器 查看 到 p 的 值 为 0x00000000。 


明 


的 代码 : 


“int*sp=NULL” 之 后 ， 再 看 下 


日 


int *p; 
*p = NULL; 


通过 上 面 的 了 解 ， 现 在 我 们 可 以 明显 地 看 出 ,语句 “int*p=NULL” 和 “*p=NULL” 有 着 本 质 区 别 。 


首先 ， 对 于 “int*p” 语 句 ， 它 声明 了 一 个 指针 变量 p ( 它 指向 的 内 存 中 保存 的 是 int 类 型 的 数据 ) ， 但 这 里 却 没有 对 该 指针 变量 p 进 行 初始 化 ， 因 此 ， 变 量 p 本 身 的 值 是 多 少 不 得 而 知 ， 也 有 可 能 保存 的 是 


一 个 非法 的 地 址 。 


台 6 旦 


候 有 些 编译 器 可 能 会 报告 一 个 内 存 访问 错误 。 例 如 ， 在 VC+ +2010 中 将 提醒 “warning C4700: uninitialized local variable'p'used” 信息。 


明白 两 者 之 间 的 本 质 区 别 之 后 ， 下 面 可 以 通过 使 p 指 向 一 块 合法 的 内 存 来 修改 上 面 的 代码 ， 如 下 所 示 : 


int i = 10; 
int *p = &i; 
*p = NULL; 


现在 ，p 指 向 的 内 存 值 由 原来 的 10 变 成 0 ( 即 NULL) ， 但 p 本 身 的 内 存 地 址 并 没有 改变 。 


建议 44: 理解 空 (null) 指针 与 NULL 指 针 


对 于 空 (null) 指针 与 NULL 指 针 ， 相 信 许 多 读者 对 它们 之 间 的 关系 都 很 迷惑 ， 甚 至 有 很 大 一 部 分 读者 会 认为 它们 根本 就 是 一 回 事 。 
之 间 的 不 同 。 


建议 44-1: 区 别 空 (null) 指针 与 NULL 指 针 的 概念 


对 于 空 (null) 指针 的 概念 ， 在 C 标 准 的 6.2.2.3 节 中 明确 地 定义 : 值 为 0 的 整 型 常量 表达 式 ， 或 强制 (转换 ) 为 “void*” 类 型 的 此 类 表达 式 ， 称 为 空 指针 常量 。 当 将 一 个 空 指针 常量 赋予 一 个 指针 或 与 


针 作 比较 时 ， 将 把 该 常量 转换 为 指向 该 类 型 的 指针 ， 这 样 的 指针 称 为 空 指针 。 空 指针 在 与 指向 任何 对 象 或 函数 的 指针 作 比 较 时 保证 不 会 相等 。 


根据 上 面 的 定义 ， 我 们 可 以 对 空 指针 做 如 下 几 点 剖析 : 


1) 每 一 种 指针 类 型 都 有 一 个 空 指针 ， 它 与 同类 型 的 其 他 所 有 指针 值 都 不 相同 。 


其 次 ， 对 于 “*p=NULL” 语 句 ， 它 表示 将 *p 赋 值 为 NULL ( 即 给 p 指 向 的 内 存 赋 值 为 NULL) 。 但 这 里 需要 注意 的 是 ， 由 于 这 里 并 没有 对 p 进 行 初始 化 ， 因 此 指向 的 内 存 可 能 是 非法 的 ， 所 以 在 调试 的 时 


实 不 然 ， 它 们 之 间 存 在 着 一 定 的 本 质 区 别 ， 下 面 就 来 详细 阐述 它们 


与 指 


2) 由 系统 保证 空 指针 不 指向 任何 实际 的 对 象 或 函数 ， 也 就 是 说 ， 任 何 对 象 或 者 函数 的 地 址 都 不 可 能 是 空 指针 ， 空 指针 与 任何 对 象 或 函数 的 指针 值 都 不 相等 。 因 此 ， 取 地 址 操作 符 & 永 远 也 不 能 得 到 空 指 


针 ， 同 样 对 malloc () 函数 的 成 功 调用 也 不 会 返回 空 指针 ， 但 如 果 调 用 失败 ， 则 malloc () 函数 返回 空 指针 。 


3) 空 指针 表示 “未 分 配 ”或 者 “尚未 指向 任何 地 方 ”。 它 与 未 初始 化 的 指针 有 所 不 同 ， 空 指针 可 以 确保 不 指向 任何 对 象 或 函数 ， 而 未 初始 化 指针 可 能 指向 任何 地 方 。 


4) 0、0L、\0、3-3、0*17 以 及 (void*) 0 等 都 是 空 指针 常量 ， 则 : 


p= (void*) 0; 


指针 变量 p 经 过 上 面 任 何 一 种 赋值 操作 之 后 都 将 成 为 一 个 空 指针 。 至 于 编译 时 系统 究竟 选取 哪 种 形式 作为 空 指针 常量 使 用 ， 则 与 具体 实现 相关 。 在 一 般 情 况 下 ， 对 于 C 语 言 系统 ,选择 (void*) 0 
0 的 居多 (也 有 个 别 的 选择 0L) ; 而 对 于 C++ 语言 系统 ， 由 于 存在 严格 的 类 型 转化 的 要 求 ，“void*” 不 能 像 在 C 语 言 中 那样 自由 转换 为 其 他 指针 类 型 ， 所 以 通常 只 选 0 作为 空 指针 常量 ， 而 不 选 
择 “ (void*) 0" 。 


5) 对 于 空 指针 究竟 指向 内 存 的 什么 地 方 ， 在 标准 中 并 没有 明确 规定 。 也 就 是 说 ， 用 哪个 具体 的 地 址 值 (0 地 址 还 是 某 一 特定 地 址 ) 来 表示 空 指针 完全 取决 于 系统 的 实现 。 在 一 般 情况 下 ， 空 指针 指 
地 址 ， 即 空 指针 的 内 部 用 全 0 来 表示 ， 也 可 以 称 它 为 零 空 指针 。 当 然 ， 也 有 一 些 系 统 用 一 些 特殊 的 地 址 值 或 特殊 的 方式 来 表示 空 指 针 ， 也 可 以 称 它 为 非 零 空 指针 。 


“或 


向 0 


但 在 实际 编程 中 ,我们 并 不 需要 了 解 在 系统 上 的 空 指针 到 底 是 一 个 零 空 指针 还 是 一 个 非 零 空 指针 。 而 我 们 仅仅 只 需要 知道 一 个 指针 是 否 是 空 指针 就 可 以 了 ， 编 译 器 会 自动 实现 其 中 的 转换 ， 为 我 们 
其 中 的 实现 细节 。 因 此 ,， 干 万 不 要 把 空 指针 的 内 部 表示 等 同 于 整数 0 的 对 象 表示 ， 有 时 它们 是 不 同 的 。 


在 了 解 空 指 针 的 概念 之 后 ， 下 面 来 看 NULL 指 针 。 


作为 一 种 良好 的 编程 习惯 ， 很 多 程序 员 都 不 愿意 在 程序 中 到 处 出 现 未 加 修饰 的 0 或 者 其 他 空 指针 常量 。 为 了 让 程序 中 的 空 指针 使 用 更 加 明确 ， 从 而 保持 统一 的 编程 风格 ， 标 准 C 专 门 定义 了 一 个 标准 预 处 


理 宏 NULL， 其 值 为 “ 空 指针 常量 。， 通 常 是 0 或 者 ”( (void*) 0) ”， 即 在 指针 上 下 文中 的 NULL 与 0 是 等 价 的 ， 而 未 加 修饰 的 0 也 是 完全 可 以 接受 的 。 如 在 VC++ 中 定义 预 处 理 宏 NULL 的 代码 如 下 : 


/* Define NULL pointer value */ 
#ifndef NULL 

#ifdef _ cplusplus 

#define NULL 0 

#else 

#define NULL ( (void *) 0) 
#endif 

#endif 


这 里 需要 说 明 的 是 ， 当 NULL 定 义 为 ”( (void*) 0) ”时 ， 即 NULL 是 可 以 赋值 给 任何 类 型 指针 的 值 ， 它 的 类 型 为 void*， 而 不 是 整数 0， 因 此 初始 化 “FILE*fp=NULL; ”是 完全 合法 的 。 


而 为 了 区 分 整数 0 和 空 指针 0， 当 需要 其 他 类 型 的 0 时 ， 即 使 可 能 工作 ， 也 不 能 使 用 NULL， 因 为 这 样 处 理 其 格式 是 错误 的 ， 这 种 类 型 在 非 指针 上 下 文中 是 不 能 工作 的 。 特 别 需要 注意 的 是 ， 不 能 在 需要 


ASCII 空 字符 (NUL) 的 地 方 使 用 NULL。 如 果 确 实 需要 ， 则 可 以 自 定义 为 : 


#define NUL '\0' 


由 此 可 见 ， 常 数 0 是 一 个 空 指针 常量 ， 而 NULL 仅 仅 是 它 的 一 个 别名 。NULL 可 以 确保 是 0， 但 空 (null) 指针 却 不 一 定 。 


建议 44-2: 用 NULL 指 针 终止 对 递归 数据 结构 的 间接 引用 


NULL 指 针 最 常用 的 场景 就 是 终止 对 递归 数据 结构 的 间接 引用 ， 其 中 最 常见 的 递归 数据 结构 就 是 〈 单 向 ) 链表 了 ， 链 表 中 的 每 一 个 元 素 都 包含 一 个 值 和 一 个 指向 链表 中 下 一 个 元 素 的 指针 。 如 下 面 的 示例 
代码 所 示 : 


/* 定义 链表 节点 类 型 */ 
typedef struct node 


/* 数 据 域 */ 

char data; 

/* 指 针 域 */ 

struct node *next; 
}linklist; 


现在 就 可 以 通过 指向 链表 中 第 一 个 元 素 的 指针 开始 引用 一 个 链表 ， 并 通过 每 一 个 元 素 中 指向 下 一 个 元 素 的 指针 不 断 地 引用 下 一 个 元 素 ; 在 链表 的 最 后 一 个 元 素 中 ， 指 向 下 一 个 元 素 的 指针 被 赋值 为 
NULL， 当 遇 到 该 NULL 指 针 时 ， 就 可 以 终止 对 链表 的 引用 了 。 如 下 面 的 示例 代码 所 示 : 


while (p! =NULL) 
{ 
p=p->next; 


这 样 ， 即 使 p 一 开始 就 是 一 个 空 指针 ， 上 面 的 程序 仍然 能 正常 工作 。 下 


回 


的 示例 代码 演示 了 单 向 链表 的 简单 操作 和 对 NULL 指 针 的 应 用 方法 。 


回 


/* 创建 链表 */ 
linklist* Creat () 
{ 
Char key; 
/* phead 为 头 指针 */ 
linklist *phead; 
/* pnew 为 新 节点 */ 
linklist *pnew; 
/*pend 为 尾 指针 */ 
linklist *pend; 
Phead = (linklist*) malloc (sizeof (linklist) ) ; 
Pend = phead; 
key = getchar () ; 
/* 遇 到 $ 就 停止 创建 */ 
while (key ! = '$') 
{ 
pnew = (linklist*) malloc (sizeof (linklist) ) ; 
pnew -> data = key; 
/* 新 节点 插入 表 尾 */ 
pend -> next = pnew; 
/* 尾 指 针 指 向 新 的 表 尾 */ 
pend = pnew; 
key = getchar () ; 
Pend -> next = NULL; 
/* 返回 头 指 针 */ 
return phead; 


} 
/* 打印 链表 函数 */ 
void Print (linklist* Phead) 
{ 
linklist *p; 
P = phead -> next; 
while (p ! = NULL) 
{ 
Printf ("“%c", p -> data) ; 
P = p -> next; 


} 
Printe ("Nn 全 


} 
/* 查找 链表 中 第 i 个 节点 */ 
linklist* Get (linklist* phead, int i) 


{ 
/* j 为 扫描 计数 器 */ 
int j = 0; 
linklist *p; 
/* P 指向 头 节点 */ 
P = phead; 
/* 到 达 表 尾 或 序号 不 合法 就 退出 循环 */ 
while ( (p -> next ! = NULL) && (jj<i)) 
{ 
P = p -> next; 
4 


1 
if (i 一 上 


return p; 


return NULL; 
EF 


} 
/* 在 链表 中 查找 值 key 并 返回 所 在 节点 */ 
linklist* Locate (linklist* phead, char key) 
{ 

linklist *p; 

/* P 指向 开始 节点 */ 

P = phead -> next; 

while (p ! = NULL) 

{ 


if (p -> data ! = key) 
{ 
P=p -> next; 
} 
else 
{ 
break; 
} 
i 
retorn ps 


} 

/* 在 节点 P 后 插入 key */ 

void InsertAfter (linklist* p, char key) 

{ 
Tinklist *gs 
s= (linklist*) malloc (sizeof (linklist) ) ; 
5s -> data = key; 
/* 先 将 s 指向 后 一 个 节点 ， 再 将 前 一 个 节点 指向 s */ 
S ~» Dext = pp -> next; 
p -> next 5S; 


} 
/* 将 key 插入 链表 第 i 个 节点 之 前 */ 
void InsertBefore (linklist* head, 
{ 


nt 于 


linklist *p; 
int Jj 三 主 ~= 1; 

/* 找到 第 i-1 个 节点 P */ 
p= Get (head, j); 

if (p = NULL) 


printf ("Insert Error! \n") ; 
else 


/* 将 key 插入 节点 P 之 后 */ 
InsertAfter (p, key) ; 
} 


} 
/* 删除 P 节点 的 后 继 节点 */ 
void DeleteAfter (linklist* p) 
{ 
linklist sr 
/* 工 指向 要 删除 的 节点 */ 
ED -> nts 
/* 将 P 直接 与 了 下 一 个 节点 链接 */ 
Bp-> nent = I -> riemt: 
/* 释放 节点 */ 


free (r); 


} 

/* 删除 链表 的 第 i 个 节点 */ 
void Delete (linklist* phead, 
{ 


int i) 


linklist *p; 

int j=i-1; 
/* 找到 第 i-1 个 节点 p */ 
p= Get (phead, Jj); 

if ((p!= NULL) && 
{ 


(p -> next ! = NULL) ) 


/* 删除 P 的 后 继 节点 */ 
DeleteAfter (P) ; 


printf ("Delete Error! \n") ; 
} 


} 
/* 递归 释放 单 链表 */ 
void Free (linklist* p) 


if (p -> next ! = NULL) 
{ 
Free (p -> next) ; 
} 
free (P) ; 


char key) 


建议 44-3: 用 NULLj 针 作 遂 数 调 用 失败 时 的 返回 值 


NULL 指 针 作 函数 调 
下 面 的 示例 代码 所 示 : 


失败 时 的 返回 值 ， 这 在 许多 C 库 函数 中 比较 常见 。 例 如 ， 一 个 函数 的 返 


回 值 是 一 个 指针 ， 在 函数 调 


成 功 时 ， 会 返 


回 


一 个 指向 某 一 对 象 的 指针 ; 否则， 返回 一 个 NULL 指 针 。 如 


char *Strchr〈(char *str, 


{ 


char ch) 


assert (str! =NULL) ; 
Char *retAddr = str; 
while (*retAgddr! =ch) 
{ 


retAddr++; 
HE (*retAddr == ch) 
: return retAddr; 
i 


{ 
return NULL; 
} 


除 此 之 外 ， 还 有 一 些 函 数 在 调 
的 含义 。 


建议 44-4: 用 NULL 指 针 作 警戒 值 


成 功 时 可 能 会 返回 一 个 正 值 ， 在 调 


失败 时 可 能 会 返回 一 个 零 值 或 负 值 。 


因此 ， 在 使 


警戒 值 是 标志 


结尾 的 一 个 特定 值 。 下 面 的 示例 通过 使 


NULL 来 作为 结束 标志 ， 从 而 避免 使 


for 循 环 ， 减 少 栈 空间 内 存 的 使 


一 个 函数 之 前 ， 应 该 先 看 一 下 它 的 返回 值 是 哪 种 类 型 ， 这 样 才能 判断 函数 返回 值 


和 运行 时 的 计算 开销 。 


void print str (char* str[]) 


while (*str! =NULL) 
{ 
Printf ("%s\n", *str+t+) ; 
} 
i} 
int main (void) 


{ 


char *test[]={"one", "two", "three", NULL}; 
print str (test) ; 
return 0; 


建议 44-5: 避免 对 NULL 指 针 进 行 解 引 用 


对 于 NULL 指 针 解 引 
面 一 段 代 码 示例 : 


相信 大 家 并 不 陌生 ， 比 较 有 名 的 内 核 bug 类 型 就 是 NULL 指 针 解 引 


了 。 在 程序 中 ， 试 图 


解 引 


NULL 指 针 会 导致 未 定义 行为 ， 很 可 能 导致 程序 异常 终止 或 者 执行 任意 代码 。 来 看 下 


size 七 size=strlen (src) +1; 


char *dst= (char *) malloc (size) ; 

memcpy (dst, src, size) ; 

/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 
free (dst) ; 

dst=NULL; 


在 上 面 的 示例 代码 中 ，src 被 复制 到 dst 所 引用 的 动态 分 配 内 存 。 很 显然 ， 如 果 这 里 的 malloc () 函数 内 存 分 配 失败 ， 它 将 返回 一 个 NULL 指 针 并 赋值 给 qst。 而 如 果 这 时 的 dst 在 memcpy () 函数 中 被 
， 程 序 将 可 能 出 现 不 可 预测 的 行为 。 


引 


因此 ， 我 们 必须 保证 malloc () 所 返回 的 指针 不 是 NULL。 这 就 要 求 在 引用 这 个 指针 之 前 ， 总 是 应 该 对 它 进行 测试 ， 保 证 它 不 为 NULL， 当 返回 的 指针 为 NULL 时 ， 就 对 错误 情况 进行 适当 处 理 。 如 下 
的 示例 代码 所 示 : 


size 七 size=strlen (src) +1; 
char *dst= (char *) malloc (size) ; 
if (dst==NULL) 


/* 处 理 dst==NULL*/ 
} 
memcpy (dst, src, size) ; 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/...*/ 
free (dst) ; 
dst=NULL; 


建议 45: 谨慎 使 用 void 指 针 


void 指 针 是 一 种 特殊 的 指针 ， 表 示 为 “无 类 型 指针 ”， 在 ANSI C 中 使 用 它 来 代替 “char*” 作 为 通用 指针 的 类 型 。 由 于 void 指 针 没有 特定 的 类 型 ， 因 此 它 可 以 指向 任何 类 型 的 数据 。 也 就 是 说 ， 任 何 类 
型 的 指针 都 可 以 直接 赋值 给 void 指针 ， 而 无 需 进 行 其 他 相关 的 强制 类 型 转换 ， 如 下 面 的 示例 代码 所 示 : 


void *pl; 
二 
pl = p2; 


里 


虽然 如 此 ， 但 这 并 不 意味 着 可 以 无 需 任何 强制 类 型 转换 就 将 void 指针 直接 赋 给 其 他 类 型 的 指针 ， 因 为 “ 空 类 型 ”可 以 包容 “有 类 型 ”， 而 “有 类 型 ” 则 不 能 包容 “ 空 类 型 ”。 正 如 我 们 可 以 说 “男人 和 
女人 都 是 人 ”， 但 不 能 说 “人 是 男人 ”或 者 “人 是 女人 ”一 样 。 因 此 ， 下 面 的 示例 代码 将 编译 出 错 ， 如 果 在 VC+ +2010 中 ,将 提示 “a value of type"void*"cannot be assigned to an entity of 
type"int*"” 的 错误 信息 。 


void *pl; 
int *p2; 全 
P2 = pl; 


由 此 可 见 ， 要 将 void 指针 赋值 给 其 他 类 型 的 指针 ， 必 须 进行 强制 类 型 转换 。 如 下 面 的 示例 代码 所 示 : 


void *pl; 
db pa 
P2 = (int*) pl; 


建议 45-1: 避免 对 void 指针 进行 算术 操作 


ANSI C 标 准 规定 ， 进 行 算法 操作 的 指针 必须 确定 知道 其 指向 数据 类 型 大 小 ， 也 就 是 说 必须 知道 内 存 目 的 地 址 的 确切 值 。 如 下 面 的 示例 代码 所 示 : 


char a[20]="qwertyuiopasdfghjk1"; 
int *p= (int *) a; 

ptt; 

printf ("a 


在 上 面 的 示例 代码 中 ， 指 针 变量 p 的 类 型 是 “int*” ， 指 向 的 类 型 是 int， 被 初始 化 为 指向 整 型 变量 a。 


在 执行 语句 “p++” 时 ， 编 译 器 是 这 样 处 理 的 : 把 指针 p 的 值 加 上 了 “sizeof (int) ” (由 于 在 32 位 系统 中 ，int 占 4 字 节 ， 所 以 这 里 是 被 加 上 了 4) ， 即 p 所 指向 的 地 址 由 原来 的 变量 a 的 地 址 向 高 地 址 方 
向 增加 了 4 字 节 。 但 又 由 于 char 类 型 的 长 度 是 一 个 字 节 ， 所 以 语句 “printf ("%s"，p) ”将 输出 “tyuiopasdfghjkl”。 


而 对 于 void 指针 ， 编 译 器 并 不 知道 所 指 对 象 的 大 小 ， 所 以 对 void 指针 进行 算术 操作 都 是 不 合法 的 ， 如 下 面 的 示例 代码 所 示 : 


void * p; 
p++; // RNSI: 错误 
P+= 1; // RNSI: 错误 


上 面 的 代码 在 VC+ +2010 ”中 将 提示 “expression must be a pointer to a complete object type” 的 错误 信息 。 


但 值得 注意 的 是 ，GNU 则 不 这 么 认为 ， 它 指定 “void*” 的 算法 操作 与 “char*” 一致 。 因 此 下 列 语句 在 GNU 编 译 器 中 都 是 正确 的 : 


P++; ， // GUN: 正确 
p+=1; // GUN: 正确 


下 面 的 示例 代码 演示 了 在 GCC 中 执行 对 void 指 针 的 自 增 操作 : 


#include <stdio.h> 

int main (void) 

{ 
void * p="ILoveC"; 
二 十 ; 
Printf ("%s\n", p); 


示例 代码 在 GCC 中 的 运行 结果 如 图 5-7 所 示 。 


maweiB@maweli c$ gcc -0 Test Test.,c 
maweiBmawei c$ . /Test 
LoveC 

maweiBmawei cE 


图 5-7 示例 在 GCC 中 执行 的 效果 


由 此 可 见 ，GNU 和 ANSI 还 存在 着 一 些 区 别 ， 相 比 之 下 ，GNU 较 ANSI 更 “开放 ” ， 提 供 了 对 更 多 语法 的 支持 。 但 是 在 真实 的 设计 环境 中 ， 还 是 应 该 尽 可 能 符合 ANSI 标 准 ， 尽 量 避 免 对 void 指针 进行 算 


术 操 作 。 


建议 45-2: 如 果 函 数 的 参数 可 以 是 任意 类 型 指针 ， 应 该 将 其 参数 声明 为 void* 


前 面 提 到 ，void 指 针 可 以 指向 任意 类 型 的 数据 ， 同 时 任何 类 型 的 指针 都 可 以 直接 赋值 给 void 指针 ， 而 无 需 进 行 其 他 相关 的 强制 类 型 转换 。 
应 该 使 用 void 指针 作为 函数 的 形 参 ， 这 样 函数 就 可 以 接受 任意 数据 类 型 的 指针 作为 参数 。 


比较 典型 的 函数 有 内 存 操作 函数 memcpy 和 memset， 如 下 面 的 代码 所 示 : 


因此 ， 在 编程 中 ， 如 果 函 数 的 参数 可 以 是 任意 类 型 指针 ， 那 么 


void *memset (void *buffer, int b, size 七 size) 
{ 

assert (buffer! =NULL) ; 

char* retAddr = (char*) buffer; 

while (size--> 0) 

{ 


* (retAgddr++) = (char) bi 
return retAddr; 


i 
void *memcpy (void *dst, const void *src, size t size) 


assert ( (dst! =NULL) && (src! =NULL) ) ; 
char *temp dest = (char *) dst; 
char *temp src = (char *) src; 
Char* retAddr = temp dest; 
sizet i= 0 
/* 解决 数据 区 重 登 问题 */ 
if ( (retAddr>temp src) && (retAddr< (temp srctsize) ) ) 
{ 

for (i=size-l; i>=0; i--) 

{ 

* (temp dest++) = * (temp src+t+) ; 


for (i=0; i<size; i++) 
{ 
* (temp dest++) = * (temp src+t+) ; 
} 
} 
* (retAddr+size) ="'\0'; 
return retAddr; 


这 样 ， 任 何 类 型 的 指针 都 可 以 传 入 memcpy 函 数 和 memset 函 数 中 ， 这 也 真实 地 体现 了 内 存 操作 函数 的 意义 ， 因 为 它 操 作 的 对 象 仅仅 是 一 片 内 存 ， 而 不 论 这 片 内 存 是 什么 类 型 。memcpy 函 数 的 调用 示 


例如 下 面 的 代码 所 示 : 


char buf[]="abcdefg"; 

// buf+2 (从 c 开 始 ， 长 度 3 个 ， 即 cde) 
memcpy (buf, buf+2 ，3) ; 
printf ("%s\n", buf) ; 


或 者 进行 如 下 形式 的 调用 : 


int dst[100]; 
int src[100]; 
memcpy (dst, src, 100*sizeof (int) ) ; 


因为 参数 类 型 是 void*， 所 以 上 面 的 调用 都 是 正确 的 。 现 在 假设 memcpy 函 数 的 参数 类 型 不 是 void*， 而 是 char*， 如 下 面 的 代码 所 示 : 


char *memcpy (char* dst, const char* src, size t size) 
‘ 

assert ( (dst! =NULL) && (src! =NULL) ) ; 

char *retAddr = dst; 

size t i = 0; 

if T(retAgddr>src) && (retAddr< (srctsize) ) ) 

{ 


for (i=size-l; i>=0; i--) 


* (dst++) = * (Src++) ; 


for (i=0; i<size; i++) 


* (dst++) = * (Src++) ; 


} 
* (retAddr+size) ='\0'; 
return retAddr; 


现在 继续 执行 如 下 形式 的 调 


int dst[100]; 
int src[100]; 
memcpy (dst, src, 100*sizeof (int) ) ; 


由 于 类 型 不 匹配 ， 编 译 器 就 会 报错 ， 如 图 5-8 所 示 。 


Error Ust 


四 2Emor 
Description 

高 1 IntelliSense: argument of type "int ” is incompatible with parameter of type “char *" 

高 2 IntelliSense: argument of type "int * is incompatible with parameter of type "const char *" 


图 5-8 在 VC++2010 中 的 报错 信息 


由 此 可 见 ， 这 样 的 函数 同时 也 失去 了 通用 性 。 


建议 46: 避免 使 用 指针 的 长 度 确定 它 所 指向 类 型 的 长 度 


在 讨论 这 个 话题 之 前 ， 先 来 看 看 下 面 的 示例 代码 : 


double *GetArray (size 七 num) 
{ 
double *arr=NULL; 
if (num>SIZE MAX/sizeof (arr) ) 


/* 处 理 num>SIZE_MAX/sizeof (arr) */ 
else 
arr= (double *) malloc (sizeof (arr) *num) ; 
if (arr==NULL) 
， /* 处 理 arr==NULL*/ 


return arr; 


对 于 上 面 这 个 示例 代码 ， 如 果 不 仔细 观察 ， 很 难看 出 有 什么 问题 。 其 实 ， 它 的 问题 就 出 在 : 在 变量 arr (被 声明 为 指向 double 类 型 的 指针 ) 上 调用 了 sizeof 操 作 符 ， 而 不 是 在 “*arr” 上 调用 了 sizeof 操 
作 符 。 


在 实际 编程 环境 中 ， 对 许多 C 语 言 编译 器 而 言 ， 指 针 的 长 度 和 double 类 型 (或 者 其 他 任何 数据 类 型 ) 的 长 度 有 可 能 不 同 。 如 下 面 的 示例 代码 所 示 : 


int main (void) 


Char *cp=NULL; 
double *dp=NULL; 


Beintf (ep; %d\n", sizeof (*cp) ) ; 
printf ("op: sd\n", sizeof (cp) ) ; 
printf ("*dp; sd\n", sizeof (*dp) ) ; 
printf ("dp: Sd\n", sizeof (dp) ) ; 
return 0; 


示例 代码 的 运行 结果 如 图 5-9 所 示 。 


图 5-9 ”在 VC++2010 中 的 运行 结果 


很 显然 ， 如 图 5-9 所 示 ， 对 于 一 个 包含 多 个 double 元 素 的 数组 来 讲 ， 这 种 方法 所 分 配 的 空间 肯定 是 不 足 的 。 因 此 ， 为 了 确保 正确 计算 聚合 数据 结构 所 包含 的 元 素 的 长 度 ， 表 达 式 sizeof (*arr) 返回 arr 


所 引用 的 数据 结构 的 长 度 ， 而 不 是 指针 的 长 度 。 而 且 ， 即 使 arr 指 针 为 NULL 或 者 没有 被 初始 化 ， 这 个 表达 式 仍然 是 合法 的 ， 因 为 sizeof 是 对 它 的 参数 类 型 进行 操作 。 如 下 面 的 示例 代码 所 示 : 


缓 ) 


double *GetArray (size t num) 
{ 
double *arr=NULL; 
if (num>SIZE MAX/sizeof (*arr) ) 


/* 处 理 num>SIZE_MAX/sizeof (*arr) */ 
else 


arr= (double *) malloc (sizeof (*arr) *num) ; 
if (arr==NULL) 
{ 
/* 处 理 arr==NULL*/ 
} 
} 


return arr; 


由 此 可 见 ， 在 C 语 言 中 ， 当 我 们 确定 某 种 数据 类 型 的 长 度 时 ， 一 定 要 避免 使 用 指针 的 长 度 确定 它 所 指向 类 型 的 长 度 。 同 时 ， 取 指针 的 长 度 而 不 是 实际 类 型 的 长 度 很 可 能 导致 分 配 的 空间 不 足 ， 从 而 导致 
中 区 溢出 ， 以 及 被 攻击 者 执行 任意 代码 。 


建议 47: 避免 把 指针 转换 为 对 齐 要 求 更 严格 的 指针 类 型 


针 ， 


在 建议 45 中 已 经 阐述 过 ，void 指 针 是 一 种 特殊 的 指针 ， 表 示 为 “无 类 型 指针 ”。 也 正 是 由 于 它 没有 特定 的 类 型 ， 因 此 它 可 以 指向 任何 类 型 的 数据 。 也 就 是 说 ， 任 何 类 型 的 指针 都 可 以 直接 赋值 给 void 指 
而 无 需 进 行 其 他 相关 的 强制 类 型 转换 。 同 时 ，void 指 针 也 可 以 通过 强制 转换 为 其 他 任何 类 型 的 指针 。 


因此 ， 可 以 把 一 种 类 型 的 指针 存储 或 者 转换 为 void 指针 ， 然 后 再 将 void 指针 存储 或 转换 为 另 一 种 类 型 的 指针 ， 这 样 ， 可 以 通过 使 用 void 指针 来 绕 过 编译 器 的 类 型 检查 系统 。 如 下 面 的 示例 代码 所 示 : 


int *F1 (void *vp) 


/* 函 数 处 理 */ 
return (int*) vp; 
} 
Char *cp 
int *ip; 
ip=F1 (cp) 


很 显然 ， 上 面 的 示例 代码 可 以 顺利 通过 编译 ， 并 不 会 发 出 任何 警告 。 但 是 这 里 却 存在 着 一 个 严重 的 问题 。 在 C 语 言 中 ， 不 同类 型 的 对 象 可 能 具有 不 同 的 对 齐 要 求 。 而 在 上 面 的 示例 代码 中 ， 因 为 cp 
“char*”， 所 以 vp 可 能 对 齐 于 1 字 节 的 边界 。 当 cp 转换 成 “int*” 时 ， 有 些 架构 将 要 求 这 个 对 象 对 齐 于 4 字 节 的 边界 。 在 这 种 情况 下 ， 如 果 以 后 ip 解 引用 ， 这 个 程序 很 可 能 会 异常 终止 。 


由 此 可 见 ， 如 果 将 一 种 类 型 的 指针 存储 或 转换 为 void 指针 ， 然 后 再 将 void 指针 存储 或 转换 为 另 一 种 类 型 的 指针 ， 对 象 的 对 齐 很 可 能 会 发 生变 化 。 因 此 ， 如 果 指 向 一 种 对 象 类 型 的 指针 转换 为 指向 不 同 对 


象 类 型 的 指针 ， 后 面 这 种 对 象 类 型 的 对 齐 要 求 不 能 够 比 前 一 种 对 象 类 型 更 为 严格 。 而 对 于 上 面 的 代码 示例 ， 由 于 输入 参数 直接 影响 返回 值 ， 并 且 函 数 F1 () 要 求 返 回 “int*” ， 因 此 应 该 重新 声明 形式 参数 
vp 只 接收 “int*”。 如 下 面 的 示例 代码 所 示 : 


int xF1 (int *vp) 
{ 


/* 函 数 处 理 */ 
return vp; 
} 
int “eps 
int *ip; 
ip=F1 (cp) ; 


除 此 之 外 ， 面 对 这 种 问题 ， 还 有 一 种 解决 方案 就 是 保证 cp 指向 malloc () 函数 所 返回 的 一 个 对 象 。 但 是 ， 在 以 后 修改 程序 时 ， 这 仍然 会 是 一 个 容易 出 错 的 地 方 。 


建议 48: 避免 将 一 种 类 型 的 操作 符 应 用 于 另 一 种 不 兼容 的 类 型 


况 。 


在 C 语 言 中 ， 人 允许 不 同 的 数据 类 型 之 间 相 互 转 换 。 但 是 ， 由 于 大 多 数 数据 类 型 的 内 部 表现 形式 都 依赖 于 系统 ， 如 果 我 们 将 一 种 类 型 的 操作 符 应 用 于 另 一 种 不 兼容 的 类 型 ， 就 可 能 产生 一 些 未 知 的 意外 情 
当然 ， 这 样 的 代码 也 不 具有 可 移植 性 。 看 下 面 的 示例 代码 : 


int main (void) 
{ 
float f=0.0; 
int i=0; 
float *fp; 
int *ip; 
ip= (int *) gf; 
fp= (float *) &i; 


printf ("fs dn 1 3 
peints FE YEN £4 
(*4p) 4; 
Cr ts 
printE ("i Sdn 2) 
Printf ("Et: Ear EY 
return 0; 


很 显然 ， 上 面 的 示例 代码 试图 将 一 个 int 类 型 转换 为 一 个 float 类 型 ， 同 时 将 一 个 float 类 型 转换 为 int 类 型 ， 最 后 再 对 它们 进行 自 增 运算 。 表 面 上 看 ， 这 个 示例 代码 应 该 没有 什么 问题 ， 自 增 后 的 结果 应 该 


都 是 1。 


4 


行 ， 


但 实际 情况 并 非 如 此 ， 由 于 C 语 言 中 的 大 多 数 数据 类 型 的 内 部 表现 形式 都 依赖 于 系统 ， 因 此 这 段 代 码 在 不 同 的 系统 中 运行 的 结果 有 可 能 不 同 。 例 如 ， 在 32 位 Windows 7 系统 的 VC+ +2010 编 译 器 中 运 
结果 如 图 5-10 所 示 。 


| 丽 c\windowssystema2wmd 
可 日 


2 
i1065353216 


图 5-10 ”在 VC++2010 中 的 运行 结果 


当然 ， 如 果 将 上 面 示例 代码 中 的 指针 赋值 修改 为 兼容 数据 类 型 的 变量 ， 那 么 结果 就 不 一 样 了 。 如 下 面 的 示例 代码 所 示 : 


int main (void) 
{ 
float f=0.0; 
int i=0; 
float *fp; 
int *ip; 
ip= (int *) &i; 
fp= (float *) gf; 


printf ("i: SR 1) 3 
printf ("E: Nn 肖 久 这 
《4 
(*fp) ++; 
printE ("is %d\n™, 1i) ; 
printf ("FE: b 下 所 
return 0; 


现在 运行 上 面 的 示例 代码 ， 其 运行 结果 就 与 预期 的 一 样 ， 如 图 5-11 所 示 。 


1 
| 


图 5-11 在 VC++2010 中 的 运行 结果 


除了 上 面 的 普通 数据 类 型 转换 之 外 ， 位 段 也 如 此 。 看 下 面 的 示例 代码 : 


struct int32 

{ 
unsigned int uil: 
unsigned int ui2: 
unsigned int ui3: 
unsigned int ui4: 


oo co co op 


}; 
void f£ () 
{ 
struct int32 tmp; 
unsigned char *cp; 
tmp.uil=0; 
0 


对 于 上 面 的 代码 示例 ， 编 译 器 一 般 将 连续 的 位 段 结 构成 员 分 配 到 相同 的 int 长 度 的 存储 空间 ， 只 要 它们 完全 适合 这 种 存储 单位 。 但 是 ， 在 一 个 存储 单位 中 ， 内 存 的 分 配 顺 序 却 是 由 编译 器 定义 的 。 


对 于 有 些 编译 器 采用 “从 左 向 右 ”， 即 第 1 个 成 员 占 据 存储 单位 的 底 端 位 置 ， 如 下 所 示 : 


uil ui2 ui3 ui4 


而 对 于 有 些 编译 器 采用 “从 右 向 左 ”， 即 第 1 个 成 员 占据 存储 单位 的 高 端 位 置 ， 如 下 所 示 : 


ui4 ui3 ui2 uil 


很 显然 ， 编 译 器 采用 “从 左 向 右 ” 还 是 “从 右 向 左 ” 的 分 配方 式 将 导致 上 面 的 代码 示例 具有 不 同 的 行为 。 即 如 果 编 译 器 采用 “从 左 向 右 ” 的 分 配方 式 ， 那 么 将 tmp.ui1 增 加 ;如 果 编译 器 采用 “从 右 向 
左 ”的 分 配方 式 ， 那 么 将 tmp.ui4 增 加 。 


由 此 可 见 ， 依 赖 于 存储 单位 的 位 顺序 的 计算 可 能 在 不 同 的 编译 器 中 产生 不 同 的 结果 。 因 此 ， 对 于 上 面 的 示例 代码 ， 应 该 明确 地 指明 它 所 修改 的 字段 ， 如 下 面 的 示例 代码 所 示 : 


struct int32 

{ 
unsigned int uil: 
unsigned int ui2: 
unsigned int ui3: 
unsigned int ui4: 


Co co co co 


i 
void f () 
{ 


struct int32 tmp; 
tmp .uil=0; 
tmp .ui2=0; 
tmp.ui3=0; 
tmp.ui4=0; 
tmp.uilL++; 


建议 49: 谨慎 指针 与 整数 之 间 的 转换 


根据 C99 规 定 ，C 语 言 中 唯一 可 以 在 指针 和 整数 之 间 相互 转换 的 值 是 常量 0。 除 此 之 外 ， 其 他 任何 整数 和 指针 之 间 的 相互 转换 都 可 能 出 现 不 良 的 后 果 ， 具 体 取决 于 编译 器 。 即 : 


“ 一 个 整数 类 型 可 以 转换 为 任何 指针 类 型 。 除 前 面 所 指定 的 之 外 ， 它 的 结果 是 由 编译 器 所 定义 的 。 其 结果 可 能 是 正确 对 齐 ， 也 可 能 是 并 不 指向 一 个 引用 类 型 的 实体 ， 也 可 能 是 一 个 陷阱 表示 形式 。 


“ 任何 指针 类 型 也 可 以 转换 为 一 个 整数 类 型 。 除 前 面 所 指定 的 之 外 ， 它 的 结果 是 由 编译 器 所 定义 的 。 如 果 转 换 的 结果 不 在 任何 整数 类 型 值 的 范围 之 内 ， 即 其 结果 无 法 用 整数 类 型 表示 ， 那 么 其 行为 是 未 
定义 的 。 


当然 ， 强 制 将 指针 类 型 转换 为 整数 类 型 ， 或 者 将 整数 类 型 转换 为 指针 类 型 ， 这 些 都 不 是 良好 的 编程 习惯 。 但 是 ， 当 需要 同时 保存 两 种 类 型 数据 的 存储 结构 时 ， 可 以 使 用 一 个 结构 体 来 提供 指针 和 标志 值 
的 空间 。 这 样 ， 对 于 不 同 字 长 (大 于 或 者 小 于 32 位 ) 的 计算 机 都 是 可 移植 的 ， 即 使 指针 无 法 用 任何 整数 类 型 表示 。 如 下 面 的 示例 代码 所 示 : 


struct pointerflag 


char *pointer; 
unsigned int flag: 9; 
}pflag; 
Char *p; 
unsigned int flag; 
/* 处 理 代码 */ 
pflag.pointer=p; 
pflag.flag=flag; 


建议 50: 区 别 “const int*p” 与 “int*const p” 


对 于 “const int*p” 与 “int*const p” 这 两 种 声明 方式 ， 相 信 很 多 程序 员 都 会 头痛 。 它 们 两 者 之 间 究 更 有 什么 不 同 之 处 呢 ? 为 了 加 深 大 家 对 这 两 种 声明 方式 的 理解 ， 下 面 就 先 从 “const int ”与 “int 
const ”之 间 的 区 别 谈 起 。 


对 于 const 关 键 字 ， 相 信 大 家 并 不 陌生 ， 前 面 的 章节 也 做 了 相关 的 说 明 。 对 变量 来 说 ，const 关 键 字 可 以 限定 一 个 变量 的 值 不 允许 改变 ， 从 而 保护 被 修饰 的 东西 ， 防 止 意外 修改 ， 在 一 定 程度 上 可 以 提高 
程序 的 安全 性 和 可 靠 性 。 如 下 面 的 示例 代码 所 示 : 


const int i=10; 
让 


很 显然 ， 上 面 的 语句 “i+ +” 是 错误 的 ， 无 法 通过 编译 ， 因 为 const 修 饰 的 变量 是 不 可 以 被 修改 的 。 然 而 对 于 下 面 的 语句 


int const i=10; 
i 


对 于 语句 “i+ +”， 编译 器 会 报 同样 的 错误 提示 。 由 此 可 见 ，“const int ”与 “int const i” 是 完全 相同 的 概念 ，const 与 int 哪 个 写 在 前 面 都 不 影响 语义 ， 理 解 这 一 点 很 重要 。 


理解 “const int i” 与 “int const ij” 之 后 ， 继 续 来 看 “const int*p” 与 “int*const p” 这 两 种 声明 方式 ， 看 下 面 的 例子 : 


int i1 = 10; 
int i2 = 20; 

const int *p = &il; 
/* 输出 结果 是 10 */ 
printf ("%d\n", *p) 了 
p= &i2; 

/* 输出 结果 是 20 */ 
printf (SG xD 了 
i2 = 30; 

/* 输出 结果 是 30 */ 
Brintf ("ida\n™ *p) > 


或 许 这 个 时 候 看 了 上 面 的 示例 代码 ， 你 会 有 这 样 一 个 疑问 : 为 什么 p 的 值 是 可 以 被 修改 的 ， 它 可 以 重新 指向 另 一 个 地 址 呢 ? 


其 实 回答 上 面 的 问题 并 不 难 ， 只 要 注意 如 下 两 点 : 


首先 ， 这 里 的 const 关 键 字 修 饰 的 是 整个 “p” ， 而 不 是 p。 所 以 这 里 的 ““p” 是 不 能 被 赋值 的 ， 也 就 是 说 我 们 不 能 通过 “*p” 来 修改 i2 的 值 。 


其 次 ，p 前 并 没有 用 const 关 键 字 进 行 修 饰 ， 所 以 p 是 指针 变量 ， 能 被 赋值 重新 指向 另 一 内 存 地 址 。 也 就 是 说 下 面 的 代码 是 合法 的 : 


p= &i2; 
12 = 30; 


看 到 这 里 ， 你 也 许 会 更 加 疑惑 : 那 又 该 如 何 使 用 const 来 修饰 p 呢 ? 


这 个 时 候 ， 我 们 就 要 使 用 “int*const p” 这 种 声明 形式 了 。 很 显然 ， 这 里 的 const 是 写 在 p 前 和 * 号 后 的 ， 而 不 是 写 在 “*p” 前 的 ， 所 以 它 是 用 来 修饰 限定 p 的 。 如 下 面 的 示例 代码 所 示 : 


int i1 = 10; 

int i2 = 20; 

int *const p = &il; 

/* 输出 结果 是 10 */ 

printf ("“%d\n", *P 

/* p=&i2; R 宁 能 再 更 和 和 新 赋值 了 ， 即 不 能 再 指向 另 一 个 新 地 址 */ 
/* 可 以 通过 *p 修 改 i1 的 值 */ 

il = 30; 

fe 输出 结果 是 30 wh 

printf (SGNon *p) 了 


从 上 面 的 示例 代码 可 以 看 出 ， 通 过 “int*const p” 声 明之 后 ，p 因 为 有 了 const 的 修饰 ， 所 以 只 是 一 个 指针 常量 。 因 此 ， 这 里 的 p 值 是 不 能 重新 赋值 修改 的 ， 它 只 能 永远 指向 初始 化 时 的 内 存 地 址 。 即 下 


面 的 代码 是 不 合法 的 : 


Pp = &i2; /*p 不 能 再 这 样 重新 赋值 了 ， 即 不 能 再 指向 另 一 个 新 地 址 */ 


但 是 ， 也 正 因 为 这 里 的 整个 “*p” 的 前 面 没有 const 修 饰 。 也 就 是 说 ，“*p” 是 变量 而 不 是 常量 ， 所 以 我 们 可 以 通过 “*p” 来 修改 它 所 指 内 存 i1 的 值 。 因 此 ， 下 面 的 语句 是 合法 的 : 


i1 = 30; 


由 此 可 见 ， 如 果 关 键 字 const 直 接 写 在 “*p” 前 ， 则 程序 不 能 修改 “*p”,， 但 可 以 修改 p; 如 果 关 键 字 const 直 接 写 在 p 前 ， 则 程序 不 能 修改 的 是 p， 但 可 以 通过 “*p” 来 修改 它 所 指 内 存 的 值 。 理 解 这 两 
点 很 重要 ， 否 则 很 难 掌握 “const int*p” 与 “int*const p” 两 者 之 间 的 根本 区 别 。 


在 了 解 “const int*p” 与 “int*const p” 两 者 之 间 的 区 别 之 后 ， 为 了 巩固 大 家 的 理解 ， 继 续 看 下 面 的 示例 : 


const int i=10; 

int *p 

CE 强 贡 关 型 特 换 */ 

p= (int *) &i; 

printf ("*p=% d\n 2 
/* 这 种 赋值 是 合 ; BE 
*p=20; 

printf ("i=%d\n", 1) ; 
Printf ("*P=%d\n", *p) ; 


在 上 面 的 代码 中 ， 因 为 const int 类 型 的 i 的 地 址 是 不 能 赋值 给 指向 int 类 型 地 址 的 指针 p 的 (否则 p 岂 不 是 能 修改 的 值 ) 。 因 此 下 面 的 语句 是 不 合法 的 : 


p= 


但 是 ， 可 以 通过 强制 类 型 转换 进行 赋值 ， 因 此 下 面 的 这 种 赋值 方法 是 合法 的 : 


P= (int *) 中; 
*p=20; 


但 值得 注意 的 是 ， 尽 管 可 以 通过 强制 类 型 转换 进行 赋值 ， 也 不 能 通过 “*p=20” 来 修改 i 的 值 。 因 此 ，“printf ("i=%d\n”,，i) ”输出 的 结果 是 10， 并 不 是 20。 示 例 运行 结果 如 图 5-12 所 示 。 


5-12 ”强制 类 型 转换 的 运行 结果 


建议 51: 深入 理解 函数 参数 的 传递 方式 


在 C 语 言 中 ， 函 数 的 参数 分 为 形 参 和 实 参 两 种 。 其 中 ， 在 定义 函数 时 函数 名 后 面 括号 中 的 变量 名 称 为 “形式 参数 ” (简称 “ 形 参 ”) ;而 在 主 调 函 数 中 进行 函数 调用 时 ， 函 数 名 后 面 括号 中 的 参数 (或 
者 表达 式 ) 则 称 为 “实际 参数 ” (简称 “ 实 参 ”) 。 即 形 参 出 现在 函数 定义 中 ， 实 参 出 现在 主 调 函 数 的 函数 调用 中 ， 主 调 函数 通过 函数 调用 将 实 参 中 的 数据 传递 给 被 调 函数 的 形 参 ， 从 而 实现 函数 间 的 数据 
传递 。 形 参与 实 参 各 自 的 特点 如 下 : 


“ 形 参 变量 只 有 在 被 调用 时 才 分 配 内 存单 元 ， 在 调用 结束 时 ， 即 刻 释 放 所 分 配 的 内 存单 元 。 因 此 ， 形 参 只 有 在 函数 内 部 有 效 。 在 函数 调用 结束 返回 主 调 函 数 后 则 不 能 再 使 用 该 形 参 变量 。 
“ 实 参 可 以 是 常量 、 变 量 、 表 达 式 、 函 数 等 ， 无 论 实 参 是 何 种 类 型 的 量 ， 在 进行 函数 调用 时 ， 它 们 都 必须 具有 确定 的 值 ， 以 便 把 这 些 值 传送 给 形 参 
“ 实 参 和 形 参 在 数量 、 类 型 、 顺 序 上 应 严格 一 致 ， 否 则 会 发 生 “类 型 不 匹配 ”的 错误 。 


“ 实 参 对 形 参 变量 的 数据 传递 是 单 向 传递 ， 只 由 实 参 传递 给 形 参 ， 而 不 能 由 形 参 传 回 实 参 


建议 51-1 


在 C 语 言 中 ， 程 序 通过 堆栈 把 参数 从 函数 外 部 传 入 函 


在 UNIX/Linux 中 ， 堆 栈 是 从 高 地 址 向 低地 址 衍生 的 。 


: 理解 函数 参数 的 传递 过 程 


节 ， 这 时 候 它 


向 堆栈 的 顶部 


在 通常 情况 下 ， 函 数 调 


(Decorated 


“ 程序 编 


还 是 指向 堆栈 的 
， 只 是 现在 地 址 增加 了 4 字 节 。 


顶部 。 需 要 注意 的 是 ， 这 里 是 


约定 (Calling Convention) 决定 了 发 


向 下 移动 ， 因 


数 内 部 ， 从 而 通过 堆栈 操作 来 实现 参数 的 传递 。 也 就 是 说， 如 果 一 个 函数 需要 传递 参数 ， 那 么 需要 在 调 


函数 之 前 先 把 参数 压 进 栈 ， 然 


后 再 调用 。 


中 ， 堆 栈 指针 ESP 永 远 指向 堆栈 项 部 (但 如 果 按照 地 址 值 来 说 却 是 底部 ) 。 如 果 这 时 候 压 进 一 个 int 类 型 的 数据 元 素 ， 那 么 ESP 将 向 下 移动 4 字 
此 ESP 应 该 指向 更 低 的 地 址 ， 所 以 说 它 是 指 


向 了 底部 ;如 果 将 一 个 int 型 数据 元 素 出 栈 ， 那 么 ESP 则 向 上 移动 4 字 节 ， 这 时 候 它 还 是 指 


Name) 规则 决定 了 编译 器 使 


译 没有 问题 ， 但 是 链接 的 时 候 总 是 报告 


何 种 名 字 修饰 方式 来 


函数 不 存在 ， 如 经 典 的 LNK 2001 错 误 。 


“ 程序 编译 和 链接 都 没有 问题 ， 但 是 只 要 调用 库 中 的 函数 就 会 出 现 堆栈 异常 。 


类 似 此 类 


其 中 , 本 


现象 的 


(1) cdecl 


编译 器 的 
原 ) 堆栈 的 代 


Windows 的 API wsprint 例 


命令 行 参数 是 /Gd。_cdec 


问题 经 常会 出 现在 C 和 C++ 的 代码 混合 使 用 的 情况 下 。 归 根 到 底 ， 


方式 是 C/C+ + 编译 器 默认 的 函数 调 


码 ， 所 以 使 


_cdec 方 式 编译 的 程序 比 使 F 


方式 。 


是 _cdecl 调 | 


时 函数 参数 的 入 栈 顺 序 ， 是 由 主 调 函 
区 分 不 同 的 函数 。 如 果 函 数 之 间 的 调 


约定 ， 函 数 参数 按照 从 右 向 左 的 顺序 入 栈 ， 函 数 调 
_stdcall 方 式 编 译 的 程序 要 大 很 多 。 但 是 _cdecl 调 


数 还 是 被 调 函 数 负责 清除 栈 中 的 参数 ， 以 及 还 原 堆栈 等 问题 ; 而 函数 名 修饰 
匹配 或 者 名 字 修 饰 不 匹配 ， 就 会 产生 如 下 的 问题 : 


约定 不 


实 这 些 问题 “都 是 函数 调用 约定 和 函数 名 修饰 规则 车 的 祸 ”。 


约定 有 很 多 方式 ， 除 常见 的 _cdecl、_fastcall 和 _stdcall 方 式 之 外 ， 不 少 C/C++ 编 译 器 还 支持 _ nakedcall，C++ 的 编译 器 还 支持 thiscal| 方 式 。 


者 负责 清除 栈 中 的 参数 。 由 于 每 次 函数 调用 都 要 由 编译 器 产生 清除 (还 
者 负责 清除 栈 中 的 函数 参数 ， 所 以 这 种 方式 支持 可 变 参数 ， 比 如 printf 和 


方式 是 由 函数 调 


对 于 CC 函数 ，_cdec| 方 式 的 名 字 修 饰 约定 是 在 函数 名 称 前 添加 一 个 下 划 线 ， 如 _functionname。 对 于 C++ 函 数 ， 除 非特 别 使 用 “extern“C””， 和 否则 C++ 函 数 使 用 不 同 的 名 字 修 饰 方式 。 


(2) fastcall 

编译 器 的 命令 行 参数 是 /Gr。_fastcall 函 数 调 用 约定 在 可 能 的 情况 下 使 用 寄存 器 传递 参数 ， 通 常 是 前 两 个 DWORD 类 型 的 参数 或 较 小 的 参数 使 
栈 ， 被 调用 函数 在 返回 之 前 负责 清除 栈 中 的 参数 。 

与 此 同时 ， 编 译 器 使 用 两 个 @ 修 饰 函 数 名 字 ， 后 跟 十 进 制 数 表示 的 函数 参数 列表 大 小 ， 例 如 @function_name@number。 需 要 注意 的 是 ，_fastcall 函 数 调 
现 ， 如 16 位 的 编译 器 和 32 位 的 编译 器 。 除 此 之 外 ， 在 使 用 内 许 汇 编 代 码 时 ， 还 要 注意 不 能 和 编译 器 使 

(3) _stdcall 

编译 器 的 命令 行 参数 是 /Gz。_stdcall 是 Pascal 程 序 的 默认 调用 方式 ， 大 多 数 Windows APl 也 是 _stdcall 调 
有 参数 采用 传 值 方式 传递 ， 由 被 调用 函数 负责 清除 栈 中 的 参数 。 


对 于 C 函 数 ，_stdcall 的 名 称 修 饰 方式 是 在 函数 名 字 前 添加 下 划 


ECX 和 EDX 寄 存 器 传递 ， 其 余 参数 按照 从 右 向 左 的 顺序 入 


约定 在 不 同 的 编译 器 上 可 能 有 不 同 的 实 


的 寄存 器 有 冲突 。 


来 看 一 个 简单 的 函数 调用 示例 ， 如 下 面 的 代码 所 示 : 
int Add (int a, int b) 


return (at+b) ; 


main 


(void) 


int a=10; 

int b=20; 

int sum=0; 

sum=Add (a, b) ; 
printf ("“%d\n", sum) ; 
return 0; 


指针 或 引 


约定 将 函数 参数 从 右 向 左 入 栈 ， 除 非 使 


类 型 的 参数 ， 所 


约定 。_stdcall 函 数 调 


线 ， 在 函数 名 字 后 添加 @ 和 函数 参数 的 大 小 ， 例 如 : _functionname@number。 


在 VC++2010 编 译 器 中 编译 上 面 的 代码 (Debug 版 本 ) ， 在 _cdec 方 式 下 ， 函 数 int Add (int a，int b) 的 汇编 代码 如 下 : 


int Agd ( 


{ 

00C913F0 
00C913F1 
00C913F3 
00C913F9 
00C913FA 
00C913FB 
00C913FC 
00C91402 
00C91407 
00C9140C 


int a, int b) 


push ebp 

mov ebp, esp 

sub esp,0COh 

push ebx 

push esi 

push edi 

lea edi, [ebp-0COh] 
mov ecx，30h 

mov eax, OCCCCCCCCh 


rep stos dword ptr es: [edi] 


return (af+b) ; 


00C9140E 
00C91411 


00DE13E4 
00DE13E5 
O00DE13E6 
00DE13E7 
00DE13E9 
00DE13EA 


mov eax, dword ptr [al 
add eax, dword ptr [b] 
pop edi 
pop esi 
pop ebx 
mov esp, ebp 
pop ebp 
ret 
汇编 代码 可 以 看 出 以 下 几 点 。 


1) 将 寄存 器 ebp 压 栈 ， 同 时 把 寄存 器 esp 的 值 存 入 寡 存 器 ebp 中 。 现 在 ，ebp 与 esp 相 同 ， 都 指向 了 堆栈 的 顶部 ， 如 下 面 的 代码 所 示 : 


00C913F0 
00C913F1 


需要 特别 
回 之 前 弹出 ， 


push ebp 
IOV ebp, esp 
说 明 的 是 ， 这 里 的 ebp 被 


来 保存 这 个 函数 执行 之 前 的 esp 的 值 。 在 执行 完毕 之 后 ， 再 用 ebp 恢复 esp; 同时 ， 调 用 此 函数 的 上 


避免 ebp 被 改动 。 


层 函 数 也 用 ebp 做 同样 的 事情 。 所 以 ， 需 要 先 将 ebp 压 入 堆栈 ， 返 


2) 将 寄存 器 esp 向 下 移动 ， 在 堆栈 中 腾 出 一 个 区 域 用 来 保存 局 部 变量 (局 部 变量 是 保存 在 栈 空间 中 的 ) 。 也 就 是 将 esp 减 少 一 个 数值 ， 这 样 就 等 于 压 入 了 一 堆 变量 。 想 要 恢复 时 ， 只 要 把 esp 恢 复 成 ebp 
中 保存 的 数据 即 可 。 如 下 面 的 代码 所 示 : 


00C913F3 sub esp,0COh 


3) 将 寄存 器 ebx、esi、edi 保 存 到 堆栈 中 ， 函 数 调 用 完 后 恢复 。 如 下 面 的 代码 所 示 : 


00C913F9 push ebx 
O00C913FA push esi 
00C913FB push edi 


4) 把 局 部 变量 区 域 初始 化 成 0CCCCCCCCh。 如 下 面 的 代码 所 示 : 


00C913FC lea edi, [ebp-0COh] 
00C91402 mov ecx，30h 
00C91407 mov eax, OCCCCCCCCh 


00C9140C rep stos dword ptr es: [edi] 


在 这 里 需要 注意 的 是 ， 在 源 操 作 数 很 简单 的 情况 下 ， 可 以 使 用 mov 指 令 来 代替 lea 指 令 。 但 是 ， 如 果 源 操作 数 稍微 复杂 一 点 (比如 要 用 到 算术 运算 指令 ) ， 这 时 候 单 用 mov 指 令 就 不 能 够 代替 了 。 


首先 ，mov 指 令 的 右 值 必 须 是 常量 ， 而 不 能 是 表达 式 。 如 下 面 的 代码 所 示 : 


/* 合 法 */ 
mov eax, ebp 

/* 不 合法 ， 因 为 ebp+8 本 身 也 需要 一 条 指令 计算 ， 所 以 不 能 跟 mov 写 在 一 条 指令 里 。*/ 
mov eax, ebp+8 


其 次 ， 内 存 地 址 的 计算 不 依赖 CPU， 而 由 专门 的 处 理 单元 来 处 理 ， 所 以 在 汇编 指令 的 内 存 地 址 符 [内 可 以 做 算术 运算 。 但 如 果 是 mov 指 令 ， 会 把 内 存 地 址 符 [里 的 地 址 指向 的 内 存 的 内 容 取出 来 放 入 寄存 
器 。 如 下 面 的 代码 所 示 : 


mov eax, [ebxtecx*4h-20h] 


上 面 的 代码 会 将 “ebx+ecx*4h-20h” 计 算 的 结果 当成 一 个 内 存 地 址 ， 然 后 去 内 存 中 把 该 地 址 的 内 容 取出 送 往 eax。 


如 果 我 们 只 是 想 在 一 条 指令 中 做 一 次 算术 运算 怎么 办 呢 ? 


这 时 候 就 可 以 用 到 lea 指 令 了 ， 因 为 lea 指 令 会 把 内 存 地 址 符 [ 里 的 地 址 送 入 寄存 器 ， 而 不 是 将 地 址 指向 的 内 存 的 内 容 送 入 寄存 器 。 例 如 ， 想 计算 “ebx+ecx*4h-20h” 的 结果 ， 就 可 以 写成 下 面 这 种 形 


式 : 
lea eax, [ebxtecx*4h-20h] 
当然 ， 不 用 lea 指 令 ， 也 可 以 达到 同样 的 目的 ， 不 过 写 起 来 就 麻烦 多 了 。 如 下 面 的 代码 所 示 : 
imul ecx, 4 
add ebx， ecx 
Sub ebx, 20h 
ImOV eax, ebx 
现在 ， 相 信 你 可 以 明白 下 面 的 汇编 语句 为 什么 用 lea 指 令 了 吧 。 
mov edi, [ebp-0COh] 


5) 函数 在 返回 之 前 ， 把 返回 值 放 入 eax 中 ， 外 部 通过 eax 得 到 返回 值 。 如 下 面 的 代码 所 示 : 


回 


return (a+b) ; 
00C9140E mov eax, dword ptr [al 
00C91411 add eax, dword ptr [b] 


6) 恢复 ebx、esi、edi、esp、ebp， 最 后 返回 。 如 下 面 的 代码 所 示 : 


00DE13E4 pop edi 
00DE13E5 pop esi 
00DE13E6 pop ebx 
00DE13E7 mov esp, ebp 
00DE13E9 pop ebp 


OO0DE13EA ret 


在 阐述 函数 int Add (int a，int b) 之 后 ， 下 面 我 们 继续 来 看 在 int main (void) 中 是 如 何 调用 它 的 。 在 VC+ +2010 编 译 器 中 编译 函数 int main (void) 的 汇编 代码 如 下 (Debug 版 本 ) : 


int main (void) 


{ 

00DF37A0 push ebp 

00DF37RA1 mov ebp, esp 

00DF37RA3 sub esp, OFE4h 

00DF37A9 push ebx 

00DF37RAA push esi 

00DF37AB push edi 

00DF37AC lea edi, [ebp-0E4h] 

00DF37B2 mov ecx, 39h 

00DF37B7 mov eax, OCCCCCCCCh 

00DF37BC rep stos dword ptr es: [edil] 
int a=10; 

00DF37BE mov dword ptr [a], OAh 
int b=20; 

00DF37C5 mov dword ptr [b], 14h 
int sum=0; 

00DF37CC mov dword ptr [sum], 0 
sum=Add (a, b) ; 

O00DF37D3 mov eax, dword ptr [b] 

00DF37D6 push eax 

00DF37D7 mov ecx, dword ptr [al 

O0DF37DA push ecx 

00DF37DB call Agdd (0DF1082h) 

00DF37E0 add esp, 8 

O00DF37E3 mov dword ptr [sum], eax 


printf ("“%d\n", sum) ; 


O00DF37E6 mov esi, esp 


00DF37E8 mov eax, dword ptr [sum] 

00DF37EB push eax 

00DF37EC push offset string "%d\n" (0DF573Ch) 

00DF37F1 call dword ptr [_ imp printf (0DF82D4h) ] 

00DF37F7 add esp，8 

00DF37FR cmp esi, esp 

00DF37FC call QILT+305 (_ RTC CheckEsp) (0DF1136h) 
return 0; > 

00DF3801 xor eax, eax 

} 

00DF3803 pop edi 

00DF3804 pop esi 

00DF3805 pop ebx 

00DF3806 add esp, OE4h 

00DF380C cmp ebp, esp 

00DF380E call QILT+305 (_ RTC CheckEsp) (0DF1136h) 

00DF3813 mov esp, ebp ， ” 

00DF3815 pop ebp 


00DF3816 ret 


从 上 面 的 汇编 代码 中 不 难看 出 ， 整 个 调用 分 为 如 下 三 步 。 


1) 调用 者 把 参数 反 序 压 入 堆栈 中 。 如 下 面 的 代码 所 示 : 


/* 把 参数 a 压 入 堆栈 */ 

00DF37D3 mov eax, dword ptr [b] 
O00DF37D6 push eax 

/* 把 参数 b 压 入 堆栈 */ 

00DF37D7 mov ecx, dword Ptr [al 
O0DF37DA push SEE 


2) 调用 函数 Add。 如 下 面 的 代码 所 示 : 


V/* 调 用 函数 Add */ 
00DF37DB call Rdd (0DF1082h) 


3) 调用 者 把 堆栈 清理 复原 。 如 下 面 的 代码 所 示 : 


/* 恢 复 堆栈 */ 
00DF37E0 add esp, 8 
00DF37E3 mov dword ptr [sum], eax 


建议 51-2: 掌握 函 数 的 参数 传递 方式 
在 语言 中 ， 函 数 的 参数 传递 方式 有 两 种 : 值 传递 与 地 址 传递 。 下 面 分 别 介绍 这 两 种 传递 形式 。 


1. 值 传递 


这 种 方式 使 用 变量 、 常 量 、 数 组 元 素 作 为 函数 参数 ， 实 际 是 将 实 参 的 值 复制 到 形 参 相应 的 存储 单元 中 ， 即 形 参 和 实 参 分 别 占用 不 同 的 存储 单元 ， 这 种 传递 方式 称 为 “参数 的 值 传递 ”或 者 “函数 的 传 值 


值 传递 的 特点 是 单 向 传递 ， 即 主 调 函 数 调用 时 给 形 参 分 配 存 储 单元 ， 把 实 参 的 值 传递 给 形 参 ， 在 调用 结束 后 ， 形 参 的 存储 单元 被 释放 ， 而 形 参 值 的 任何 变化 都 不 会 影响 到 实 参 的 值 ， 实 参 的 存储 单元 仍 
保留 并 维持 数值 不 变 。 


来 看 下 面 一 个 调用 示例 : 


/* 变量 Xx、 te 数 */ 
ed Swap (int x, int y) 


{ 


Prtntf 人 x= %d, y= %d\n", x, y); 
int main (Void) 


int a=10; 
int b=20; 
/* 变 量 a、 为 Swap 函 数 的 实际 参 才 
Swap (a, 
printf (" a= ‘sg, b= %d\n", a, b); 
return 0; 


在 上 面 这 个 示例 代码 中 ， 实 参 将 值 传递 给 形 参 ， 形 参 值 发 生 互 换 后 的 值 不 能 回 传 给 主 调 函数 。 因 此 ， 主 调 函 数 中 的 数值 不 变 。 上 面 代码 的 运行 结果 如 图 5-13 所 示 。 


图 5-13 值 传递 示例 的 运 


图 
ey 
座 
讶 


对 于 上 面 这 个 示例 ， 或 许 有 人 会 有 如 下 疑问 : 


上 面 的 示例 中 明确 地 把 a、b 分 别 代入 了 x、y 中 ， 并 在 函数 Swap () 里 完成 了 两 个 变量 值 的 交换 ， 为 什么 a、b 变 量 值 还 是 没有 交换 。 其 结果 仍然 是 “a=10，b=20”， 而 不 是 “a=20，b=10” 呢 ? 


其 实 ， 原 因 很 简单 。 函 数 在 调用 时 ， 隐 含 地 把 实 参 a 的 值 赋值 给 了 参数 x， 而 将 实 参 b 的 值 赋值 给 了 参数 y， 如 下 面 的 代码 所 示 : 


/* 将 a 的 值 赋值 给 X〈 隐 含 动作 ) */ 
pa X= A; 

个 吾 的 全 时 值 y ( 隐 含 动作 ) */ 
int y= 


因此 ,之 后 在 Swap () 函数 体内 再 也 没有 对 a、b 进 行 任何 操作 。 而 在 Swap () 函数 体内 交换 的 只 是 x、y， 并 不 是 a、b， 当 然 ，a、b 的 值 没有 改变 。 整 个 wap () 函数 调用 是 按照 如 下 顺序 执行 的 : 


el ( 隐 仿 动作) */ 
nt 
A a 的 全 下 全 夫 y ( 隐 含 动作 ) */ 
int = 
int Yt 
2 ee 
= y; 
y = tmp; 
printf ("x = %d, y= %d\n", x, y); 
由 此 可 见 ， 函 数 只 是 把 a、b 的 值 通过 赋值 传递 给 x、y， 在 函数 Swap () 中 操作 的 只 是 x、y 的 值 ， 并 不 是 a、b 的 值 ， 这 也 就 是 所 谓 的 参数 的 值 传递 。 


2. 地 址 传递 


这 种 方式 使 用 数组 名 或 者 指针 作为 函数 参数 ， 传 递 的 是 该 数组 的 首 地 址 或 指针 的 值 ， 而 形 参 接收 到 的 是 地 址 ， 即 指向 实 参 的 存储 单元 ， 形 参 和 实 参 占用 相同 的 存储 单元 ， 这 种 传递 方式 称 为 “参数 的 地 
址 传递 ”。 

地 址 传递 的 特点 是 形 参 并 不 存在 存储 空间 ， 编 译 系统 不 为 形 参数 组 分 配 内 存 。 数 组 名 或 指针 就 是 一 组 连续 空间 的 首 地 址 。 因 此 在 数组 名 或 指针 作 函 数 参数 时 所 进行 的 传送 只 是 地 址 传送 ， 形 参 在 取得 该 
首 地 址 之 后 ， 与 实 参 共同 拥有 一 段 内 存 空间 ， 形 参 的 变化 也 就 是 实 参 的 变化 。 


来 看 下 面 一 个 调用 示例 : 


void Swap (int *px, int *py) 
{ 


int tmp; 


en = *px; 
*px = Ev 
人 


printf 人 xpx = sd， xpy = Sd\n", xpx， xpy) ; 
int main (void) 


int a=10; 

int b=20; 

Swap (&a, &b) ; 

printf ("a = %d, b = %d\n", a, b); 
return 0; 


语句 将 a 的 地 址 (&a) 代入 px，b 的 地 址 


x 


在 上 面 的 示例 代码 中 ， 函 数 void Swap (int*px，int*py) 中 的 参数 px、py 都 是 指针 类 型 ， 在 main 函 数 中 使 用 语句 “Swap (&a，&b) ”进行 调用 ,i 
(&b) 代入 py。 很 显然 ， 这 里 的 函数 调用 有 两 个 隐 含 操作 : 将 &a 的 值 赋值 给 参数 px， 将 &b 的 值 赋 值 给 参数 py， 如 下 面 的 代码 所 示 : 


px = &a; 
py = &b; 


注意 ， 这 里 与 值 传递 方式 存在 着 很 大 的 区 别 。 在 值 传递 方式 中 ， 传 递 的 是 变量 a、b 的 内 容 ( 即 在 上 面 的 值 传 递 示 例 代码 中 ， 将 a、b 的 内 容 传递 给 参数 x、y) ;而 这 里 的 地 址 传递 方式 则 是 将 变量 a、b 的 
地 址 值 (&a、&b) 传递 给 参数 px、py。 因 此 ， 整 个 Swap () 函数 调用 是 按照 如 下 顺序 执行 的 : 


V 将 5 的 值 肪 值 维 Px 《( 隐 含 动作 ) */ 
&a; 
Soot py ( 隐 含 动作 ) 
py= &b 
int tp; 
tmp = *px; 
*pX = 
Se 
printf 全 *px = %d, *py = %d\n", *px, *py) ; 


这 样 ， 有 了 前 两 行 的 隐 售 赋值 操作 ， 指 针 变量 px、py 的 值 已 经 分 别 是 变量 a、b 的 地 址 值 (&a、&b) 。 接 下 来 ， 对 “*px”“*py” 的 操作 当然 也 就 是 对 a、b 变 量 本 身 的 操作 了 。 所 以 Swap () 函数 中 
的 交换 操作 就 是 对 a、b 值 进行 交换 ， 这 就 是 所 谓 的 地 址 传递 ， 运 行 结果 如 图 5-14 所 示 。 


5-14 ”地 址 传递 示例 的 运行 结果 


建议 51-3: 如 果 函 数 的 参数 是 指针 ， 避 免 用 该 指针 去 申请 动态 内 存 


在 C 程 序 中 ， 如 果 函 数 的 参数 是 一 个 指针 ， 那 么 应 该 坚决 避免 使 用 该 指针 申请 动态 内 存 。 来 看 下 面 的 一 个 示例 代码 : 


void GetMemory (char *p, int num) 
p= (char *) malloc (sizeof (char) * num) ; 


int main (void) 

{ 
char *str = NULL; 
/* str 仍然 为 NULL */ 
GetMemory (str, 10); 
if (str==NULL) 


/* 处 理 为 空 */ 
printf ("str==NULL\n") ; 
} 
else 
{ 
strcpy (str, "hello") ; 
printf ("“%s\n", str) ; 
free (str) ; 
str = NULL; 
} 
return 0; 


在 上 面 的 示例 代码 中 ， 程 序 试图 用 指针 参数 申请 动态 内 存 。 但 遗憾 的 是 ，main 函 数 总 的 语句 “GetMemory (str，10) ”并 没有 使 str 变 量 获得 期 望 的 内 存 ，str 依 旧 为 NULL， 程 序 最 后 输出 还 
是 “str==NULL”， 这 是 为 什么 呢 ? 


泗 


其 实 ， 原 因 很 简单 ， 问 题 就 出 在 GetMemory (char*p，int num) 函数 中 。 在 C 语 言 中 ， 编 译 器 总 是 要 为 函数 的 每 个 参数 制作 临时 副本 ， 例 如 ， 在 默认 的 _cdec| 方 式 下 ， 指 针 参 数 p 的 副本 是 _p， 编 译 
器 使 p=p。 如 果 函 数 体内 的 程序 修改 了 _p 的 内 容 ， 就 导致 参数 p 的 内 容 作 相应 的 修改 ， 这 就 是 指针 可 以 用 作 输 出 参数 的 原因 。 


而 在 上 面 的 示例 代码 中 ，_p 申 请 了 新 的 内 存 ， 只 是 改变 了 _p 所 指 的 内 存 地 址 ， 但 是 p 丝 毫 未 变 ， 所 以 函数 GetMemory (char*p，int num) 并 不 能 输出 任何 东 
GetMemory () 函数 就 会 泄漏 一 块 内 存 ， 因 为 没有 用 free 释 放 内 存 。 


实 上 ， 每 执行 一 次 


| 


当然 ， 如 果 我 们 必须 用 指针 参数 申请 内 存 ， 那 么 应 该 改 用 “指向 指针 的 指针 ”， 如 下 面 的 示例 代码 所 示 : 


void GetMemory (char **p, int num) 


*p= (char *) malloc (sizeof (char) * num) ; 
} 


int main (void) 


char *str = NULL; 

/* 注 意 参 数 是 &str， 而 不 是 str*/ 
GetMemory (&str, 10) ; 

if (str==NULL) 


/* 处 理 为 空 */ 
printf ("str==NULL\n") ; 
} 
else 
{ 
strcpy (str, "hello") ; 
Printf ("%s\n", str) ; 
free (str) ; 
str = NULL; 
} 
return 0; 


现在 ， 程 序 将 按照 预想 输出 字符 串 “hello”。 除 此 之 外 ， 也 可 以 使 用 函数 的 返回 值 来 传递 动态 内 存 ， 这 种 方法 也 是 最 简单 、 最 容易 理解 的 方式 ， 如 下 面 的 示例 代码 所 示 : 


char *GetMemory (int num) 

{ 
char *p = (char *) malloc (sizeof (char) * num) ; 
return p; 


int main (void) 


char *str =NULL; 
str=GetMemory (10) ; 
if (str==NULL) 

{ 


/* 处 理 为 空 */ 
Printf ("str==NULLNn") ; 
else 
{ 
strcpy (str, "hello") ; 
printf ("an atr) ; 
free (str) ; 
str = NULL; 
return 0; 


函数 返回 值 来 传递 动态 内 存 这 种 方法 虽然 简单 好 用 ， 但 是 也 容易 出 错 。 我 们 知道 ， 每 个 函数 在 运行 的 时 候 都 要 分 配 相应 的 临时 内 存 。 在 函数 运行 完 之 后 ， 内 存 就 释放 了 ， 函 数 中 的 变量 随 着 内 存 释 放 
而 消失 。 如 下 面 的 示例 代码 所 示 : 


char *GetStr (void) 


char p[] = "hello"; 

/* 编 译 器 将 提出 警告 ; returning address 
of local variable or temporary*/ 
return p; 


int main (void) 


Char *str =NULL; 

/* str 是 垃圾 内 容 */ 
str=GetStr () ; 
printf ("%s\n", str) ; 
return 0; 


在 上 面 的 示例 代码 中 ， 用 调试 器 逐步 跟踪 main () 函数 ， 可 以 发 现在 执行 “str=GetStr () ”语句 后 ，str 不 再 为 NULL。 当 然 ，str 的 内 容 也 不 是 我 们 所 需要 的 “hello”， 而 是 垃圾 内 容 (得 到 一 个 出 了 
意料 的 结果 ) 。 


当然 ， 也 可 以 将 上 面 的 示例 代码 中 的 GetStr () 函数 变 个 方式 进行 改写 ， 如 下 面 的 示例 代码 所 示 : 


char *GetStr (int num) 
P = "Hello"; 


int main (void) 


Char *str =NULL; 
str=GetStr (10) ; 
Printf ("%s\n", str) ; 
return 0; 


除 此 之 外 ， 还 可 以 通过 使 用 return 语 句 返 回 常量 字符 串 这 种 方式 进行 改写 ， 如 下 面 的 示例 代码 所 示 : 


char *xGetStr (void) 

{ 
char *p = "hello"; 
return p; 

} 

int main (void) 

{ 
char *str =NULL; 
str=GetStr () ; 
printf ("“%s\n", str) ; 
return 0; 


经 过 这 样 的 修改 ,虽然 现在 可 以 在 main () 函数 中 成 功 地 调用 Getstr () 函数 ， 但 是 ， 这 里 的 函数 Getstr () 的 设计 概念 却 是 错误 的 。 因 为 GetStr () 函数 内 的 “hello” 是 常量 字符 串 ， 位 于 静态 存 
储 区 ， 它 在 程序 生命 期 内 恒定 不 变 ， 无 论 我 们 什么 时 候 调 用 Getstr () ， 它 返回 的 始终 是 同一 个 “只 读 ”的 内 存 块 。 


建议 51-4: 尽量 避免 使 用 可 变 参数 


在 实际 编程 中 ， 有 时 候 我 们 希望 函数 参数 的 个 数 可 以 根据 实际 需要 来 确定 。 为 了 满足 此 需求 ，C 语 言 为 函数 设计 提供 了 可 变 参数 的 功能 。 在 ANSI 标准 中 ， 函 数 的 可 变 参数 声明 形式 如 下 所 示 : 


type funcname (type paral, type para2， http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...) 


如 上 所 示 ， 这 种 形式 的 声明 至 少 需要 一 个 普通 的 形式 参数 ， 后 面 的 省 略 号 (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/15541/OEBPS/Text/…) 不 能 省 去 ， 它 是 函数 原型 必 不 可 少 的 一 部 分 。 其 中 ， 可 变 参数 的 典型 例子 就 是 大 家 所 熟悉 的 printf () 函数 ， 如 下 面 的 示例 
代码 所 示 : 


int printf ( const char *format ， http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... ) ; 


在 printf () 函数 中 ， 它 除了 有 一 个 参数 format 国 定 以 外 ， 后 面 跟 的 参数 的 个 数 和 类 型 都 是 可 变 的 、 不 确定 的 。 例 如 ， 在 实际 调用 时 可 以 有 以 下 不 同形 式 的 调用 方法 : 


printf (" The number is: gd ， String is: $s\n", i, Str) ; 


也 许 这 些 已 经 为 大 家 所 熟知 ， 但 是 可 变 参数 的 实现 原理 却 是 C 语 言 中 比较 难 理解 的 一 部 分 。 标 准 C 语 言 中 定义 了 一 个 头 文件 stdarg.h， 专 门 用 来 对 付 可 变 参数 列表 ， 其 中 包含 了 一 个 va_list 的 typedef 声 
明和 一 组 宏 定义 va_start、va_arg、va_end 与 va_copy， 如 下 面 的 表 5-1 所 示 。 


表 5-1 stdarg.h 中 定义 的 类 型 和 宏 


名 称 兼 容 
va_list 用 来 保存 宏 va_arg 与 宏 va_end 所 需 信 息 (类 型 C89 
va_start 使 va_list 指 回 起 始 的 参数 ( 安 C89 
va arg C89 
va_end C89 
va_copy 宏 ) C99 


其 中 ， 在 访问 未 命名 的 参数 时 ， 必 须 在 不 定 参数 函数 中 声明 va_list 数 据 类 型 的 变量 。 调 用 va_start 并 传 入 两 个 参数 : 第 一 个 参数 为 va_list 数 据 类 型 的 变量 ， 第 二 个 参数 为 函数 第 一 个 参数 的 名 称 。 接 着 ， 每 调 
va_arg 就 会 返回 下 一 个 参数 ，va_arg 的 第 一 个 参数 为 va_list， 第 二 个 参数 为 返回 的 数据 类 型 。 最 后 使 用 va_end 宏 结束 可 变 参数 的 获取 。 


而 C99 中 提供 的 宏 va_copy 能 够 复制 va_list。 比 如 ，“va_copy (va2，va1) ”的 意思 为 复制 va1 到 va2。 


来 看 一 段 可 变 参 数 的 示例 代码 : 


/* 输出 所 有 int 类 型 的 参数 ， 直 到 -1 结束 */ 
void PrintArgs (int argl, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...) 
{ 

va list ap; 

nt 

Va start (ap, arg1) ; 

for (i= argl; i != -1; i= va arg (ap, int)) 

{ 

Printf (vd " i) 3 


va _ end (ap) ; 
putchar ('\n') ; 


int main (void) 
PrintArgs (1, ~1, 2, 3, 4) ; 


PrintArgs (-1) ; 
Printhrgs (1, 2, 3, #4; 5, -1)» 


从 上 面 的 示例 代码 中 可 以 看 出 ， 使 用 可 变 参 数 应 该 有 以 下 步 又: 


1) 在 函数 中 定义 一 个 va_list 型 的 变量 ， 这 里 是 ap， 这 个 变量 是 指向 参数 的 指针 。 


2) 调用 va_start 宏 初始 化 变量 ap， 这 个 宏 的 第 二 个 参数 为 函数 第 一 个 参数 的 名 称 。 


3) 调用 va_arg 宏 返回 可 变 的 参数 ， 并 赋值 给 整数 j。 也 就 是 说 ， 每 调用 va_arg 就 会 返回 下 一 个 参数 ，va_arg 的 第 一 个 参数 为 va_list， 第 二 个 参数 为 返回 的 数据 类 型 ， 这 里 是 int 类 型 。 


4) 最 后 用 va_end 宏 结束 可 变 参数 的 获取 。 


上 面 的 示例 代码 运行 结果 如 图 5-15 所 示 。 


5-15 ”可 变 参 数 示例 的 运行 结果 


这 里 需要 特别 注意 的 是 ， 由 于 硬件 平台 的 不 同 与 编译 器 的 不 同 ， 从 而 导致 stdarg.h 中 所 定义 的 宏 也 有 所 不 同 ， 如 VC++2010 中 的 stdarg.h 定 义 部 分 代码 片断 如 下 所 示 (x86) : 


/* VC++ 2010 中 的 stdarg.h*/ 


#iff ! defined (_WIN32) 
#error ERROR: Only Win32 target supported! 
#endif 


#include <vadefs.h> 

#define va start crt va start 
#define va arg crt va arg 
#define va end crt va end 
#endif /* INC STDARG */ 


其 中 ，vadefs.h 定 义 部 分 代码 片断 如 下 所 示 (x86) : 


/*VC++ 2010 中 的 vadefs.h*/ 
#ifndef VA LIST DEFINED 
typedef char * va list; 
#define _VA LIST DEFINED 


#endif 

#ifdef cplusplus 

#define _ADDRESSOF (v) ( &reinterpret cast<const char &> (v) ) 

#else 

#define ADDRESSOF (V) (&(v) ) 

#endif 

#elif defined (_M IX86) 

#define INTSIZEOF (n) ( (sizeof (n) + sizeof (int) - 1) & ~ (sizeof (int) - 1) ) 
#define crt va start (ap，v) (ap= (va list) ADDRESSOF (Vv) + _INTSIZEOF (v) ) 
#define _crt va arg (ap, t) (*(t*) Cl(ap += _INTSIZEOF (t) ) - _INTSIZEOF (t) ) ) 
#define _crt va end (ap) (ap= (va list) 0) 


如 上 面 的 代码 片断 所 示 ， 定 义 “_INTSIZEOF (n) ” 宏 是 为 了 使 系统 内 存 对 齐 ; “_crt_va_start (ap，v) ” 宏 使 ap 指向 第 一 个 可 变 参 数 在 堆栈 中 的 地 址 ; 而 “_crt_va_arg (ap，t) ” 宏 使 ap 指向 下 


一 个 可 变 参数 的 堆栈 地 址 ， 并 用 “*” 取得 该 地 址 的 内 容 ; 最 后 变 参 获取 完毕 ， 通 过 “crt va_end (ap) ” 宏 让 ap 不 再 指向 堆栈 。 


由 此 可 见 ， 可 变 参数 具有 很 多 的 优点 ， 也 为 程序 员 带 来 了 很 多 的 方便 。 如 下 面 的 示例 代码 所 示 : 


/* 求 任意 个 自然 数 的 平方 和 */ 
int SquaredSum (int i, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/...) 
{ 
va list ap; 
int sum = 0; 
nt 生 运 
va start (ap, i); 
while (n > 0) 
{ 
Sum += (n*n); 
n= va arg (ap, int); 
} 
va end (ap) ; 
return sum; 


int main (void) 


printf ("%d", SquaredSum (1, 2, 3, 2222) ) ; 
return 0; 


旗 


如 上 面 的 代码 所 示 ， 现 在 可 以 向 SquaredSum () 函数 传 入 任意 个 int 类 型 的 自然 数 参数 ， 它 都 能 够 将 这 些 自然 数 的 平方 和 计算 出 来 。 尽 管 如 此 ， 可 变 参 数 也 存在 着 如 下 致命 的 缺点 : 


1) 缺乏 类 型 检查 ， 类 型 安全 性 无 从 谈 起 。 省 略 号 的 本 质 是 告诉 编译 器 “关闭 所 有 检查 ， 从 此 由 我 接管 ， 启 动 reinterpret_cast” ， 强 制 将 某 个 类 型 对 象 的 内 存 表示 重新 解释 成 另外 一 种 对 象 类 型 ， 这 是 
反 “ 类 型 安全 性 ”的 。 


例如 ， 对 于 上 面 的 SquaredSum () 函数 ， 采 用 下 面 两 种 方法 进行 调用 ， 都 是 合法 、 合 理 的 : 


SquaredSum (1，2，3，2222) ; 


SquaredSum (3，5) ; 


但 是 ， 当 给 定 的 值 与 参数 类 型 不 对 应 时 ， 将 使 程序 出 现 致命 错误 ， 如 下 所 示 : 


SquaredSum (1, 2, 3, 1.1, 'a', 0.22) ; 


2) 因为 禁用 了 语言 类 型 检查 功能 ， 所 以 在 调用 时 必须 通过 其 他 方式 告诉 函数 所 传递 参数 的 类 型 及 参数 的 个 数 ， 这 就 像 很 多 人 熟知 的 printf () 函数 中 的 格式 字符 串 charformat 一 样 。 很 显然 ， 这 种 方 
式 需 要 手动 协调 ， 既 容易 出 错 ， 又 不 安全 。 


由 此 可 见 ， 将 va_start、va_arg、va_end 定 义 成 宏 ， 可 变 参数 的 类 型 和 个 数 在 该 函数 中 完全 由 程序 代码 控制 ， 并 不 能 智能 识别 ， 从 而 导致 编译 器 对 可 变 参数 的 函数 原型 检查 不 够 严格 ， 所 以 容易 引起 问 
题 ， 难 于 查 错 ， 不 利于 写 出 高 质量 的 代码 。 因 此 ， 我 们 应 该 在 编程 中 尽量 避免 使 用 可 变 参数 设计 。 


第 6 章 ”数组 并 非 指针 


在 C 语 言 中 ， 数 组 和 指针 之 间 一 直 是 保持 着 比较 暧昧 的 关系 。 与 此 同时 ， 在 ANSI C 标 准 中 也 没有 对 两 者 的 关系 做 详细 说 明 。 更 糟糕 的 是 ， 竟 然 有 些 C 语 言 的 教科 书 也 搞 不 清楚 什么 时 候 数组 与 指针 是 相 
同 的 ， 什 么 时 候 数组 与 指针 是 不 相同 的 。 因 此 ， 导 致 许多 程序 员 产生 了 这 样 一 个 观点 : 数组 与 指针 是 相同 的 。 遗 憾 的 是 ， 有 这 种 观点 的 程序 员 是 很 危险 的 ， 因 为 这 种 观点 完全 是 不 正确 的 。 


针对 上 面 的 问题 ， 本 章 将 带领 大 家 重新 认识 数组 和 指针 的 关系 ， 以 及 如 何 正确 地 使 用 数组 与 指针 。 


建议 52: 理解 数组 的 存储 实质 


与 指针 一 样 ， 要 想 彻底 理解 C 语 言 中 的 数组 ， 应 该 首先 理解 C 语 言 中 数组 的 存储 结构 。 


建议 52-1: 理解 数组 的 存储 布局 


在 程序 设计 中 ， 为 了 便于 程序 处 理 ， 通 常 把 具有 相同 类 型 的 若干 变量 按 有 序 的 形式 组 织 在 一 起 ， 这 些 按 序 排列 的 同类 数据 元 素 的 集合 称 为 数组 。 其 中 ， 集 合 中 的 每 一 个 元 素 都 相当 于 一 个 与 数组 同类 型 
变量 ; 集合 中 的 每 一 个 元 素 用 同一 个 名 字 和 它 在 集合 中 的 序号 (下 标 ) 来 区 分 引用 。 来 看 下 面 一 个 数组 定义 : 


int a[5]; 


如 图 6-1 所 示 ， 当 定义 一 个 数组 a 时 ， 编 译 器 根据 指定 的 元 素 个 数 和 元 素 的 类 型 分 配 确 定 大 小 元素 类 型 大 小 x 元 素 个 数 ) 的 一 块 内 存 ， 并 把 这 块 内 存 的 名 字 命 名 为 a， 名 字 a 一 旦 与 这 块 内 存 匹 配 就 不 能 
再 改变 。 其 中 ，a[0]、a[1]、a[2]、a[3] 与 a[ 久 都 为 a 的 元 素 ， 但 并 非 元 素 的 名 字 (数组 的 每 一 个 元 素 都 是 没有 名 字 的 ) 。 


10 000=&al0|]=a+0 
10 004=&al 1|=a+l 
10 008=&al[2|1=a+2 
10 012=&al3|=a+3 


10 016=&al4|=a+4 


第 一 层 第 二 层 


图 6-1 int a[5] 的 存储 结构 


在 32 位 系统 中 ， 由 于 int 类 型 的 数据 占 4 字 节 单元 ， 因 此 该 数组 a 在 内 存 中 共 占 据 连 续 的 4x5=20 字 节 单 元 ， 依 次 保存 a[0]、a[1]、a[2]、a[3] 与 a[ 外 共 5 个 元 素 。 如 果 这 里 假设 元 素 a[0] 的 地 址 是 10000， 则 
元 素 a[1] 的 地 址 是 10000+1x4=10004; 元 素 a[2] 的 地 址 是 10000+2x4=10008; 元 素 a[3] 的 地 址 是 10000+3x4=10012; 元 素 a[4 的 地 址 是 10000+4x4=10016。 


由 此 可 见 ， 数 组 的 存储 具有 如 下 特点 : 


: 索引 从 0 开始 。 

. 数组 在 内 存 中 占据 连续 的 字 节 单元 。 

. 数组 占据 的 字 节 单元 数 等 于 数组 元 素 个 数 乘 以 该 数组 所 属 数据 类 型 的 数据 占据 的 字 节 单元 数 〈( 元 素 个 数 乘 以 元 素 类 型 大 小 ) 。 
“ 数组 元 素 按 顺序 连续 存放 。 


为 了 让 大 家 更 加 清楚 地 看 到 数组 的 存储 结构 ， 继 续 看 下 面 的 示例 代码 : 


int a[5]; 

printf ("sizeof (a) : sd\n", sizeof (a) ) ; 
printf ("sizeof (a[0]) sd\n", sizeof (a[0]) ); 
printf zeof (a[5]) : "lineof (ald]y } 3 


sizeof (&a) ) ; 
", sizeof (&a[0]) ) ; 
Ny 


Printf ("sizeof (&a) : 

printf ("sizeof (&a[0]) : 
Printf (™ 
printf (" 
printf (™* 
Brintf (™" 
printf (" 
printF (" 
Brintf (™ 


对 于 上 面 的 示例 代码 ， 在 32 位 系统 中 : 


' 对 于 sizeof (a) ，sizeof (a) =sizeof (int) X5=4X5=20。 
. 对 于 sizeof (al0]) ，sizeof (al0]) =sizeof (int) =4。 


* 对 于 sizeof (al[5]) ，sizeof (al0]) =sizeof (int) =4。 这 里 需要 说 明 的 是 ， 因 为 sizeof 是 关键 字 ， 而 不 是 函数 (函数 求 值 是 在 运行 的 时 候 ， 而 关键 字 sizeof 求 值 是 在 编译 的 时 候 ) ， 因 此 ， 虽 然 并 不 存在 a[5] 
这 个 元 素 ， 但 是 这 里 也 并 没有 真正 访问 al5]， 而 是 仅仅 根据 数组 元 素 的 类 型 来 确定 其 值 。 所 以 这 里 使 用 al5] 并 不 会 出 错 ，sizeof (a[5]) 的 结果 为 4。 


' 对 于 &cal0l， 它 表示 取 数 组 首 元 素 al0] 的 首 地 址 ; 而 对 于 &a， 表 示 取 数组 a 的 首 地 址 。 因 此 ，&eal0] 的 值 与 &a 的 值 相 同 ，sizeof (&al0]) 与 sizeof (&ca) 在 32 位 系统 下 的 结果 都 为 4。 


因此 ， 运 行 上 面 的 示例 代码 ， 结 果 如 


6-2 所 示 。 


[ 


4 
4 
eof C&a>: 1 
eof <C&alg@]>:4 


2881460 
2881460 
2881464 
2881468 
2881472 
2881476 


图 6-2 示例 代码 在 VC++2010 (32 位 系统 ) 中 的 运行 结果 


到 现在 为 止 ， 相 信 大 家 已 经 基本 了 解 了 一 维 数组 的 存储 结构 。 或 许 这 个 时 候 你 会 问 ， 那 么 二 维 数组 及 多 维 数组 又 是 怎样 存储 的 呢 ? 其 实 ， 其 原理 与 一 维 数组 一 样 。 下 面 ， 我 们 来 定义 一 个 5 行 4 列 的 二 维 
数组 a: 


int a[5] [4]; 


对 于 二 维 数组 ， 它 在 逻辑 上 是 由 行 和 列 组 成 的 。 因 此 ， 我 们 可 以 将 上 面 的 二 维 数组 a 分 为 三 层 来 理解 ， 如 图 6-3 所 示 。 


al0j[0j] | alol[ | alolt2 | alojU] 
allj[oj | a[lJ[1] | all]J[2] | alUD] 
al2j[0] | a[2][1] | al2][2] | a[2][3] 


al3j[0] | a[l3][1] | al3][2] | a[3][3] 
al4j[0] | a[4][1] | al4][2 | a[4][3] 


在 图 


6-3 中 : 


在 第 一 


以 变量 a 占 


层 ， 将 数组 a 看 作 一 个 变量 ， 


80 字 节 。 


在 第 二 
个 数组 元 素 的 长 度 为 16) ， 使 


度 。 


sizeof (a[0]) 可 得 到 数组 元 素 的 长 


该 变量 的 地 址 为 &a， 长 度 为 sizeof (a) 。 因 


层 ， 将 数组 a 看 作 一 个 一 维 数组 ， 由 a[0]、a[1]、a[2]、a[3] 与 a[ 久 等 5 个 元 素 组 成 。 数 组 的 首 地 址 为 或 &a[0 


图 6-3 inta[5] 轩 的 存储 结构 


为 数组 的 长 度 为 元 素数 量 乘 以 每 个 元 素 类 型 的 大 小 ， 这 里 的 二 维 数组 a 为 5 行 4 列 共 20 个 元 素 ， 每 个 元 素 占 


( 即 数组 首 地 址 和 第 一 个 元 素 的 地 址 相同 ， 而 每 个 数组 元 素 的 地 址 相差 为 16， 表 示 每 


在 第 三 层 ， 将 第 二 层 中 的 每 个 数组 元 素 看 作 一 个 单独 的 数组 。 第 二 


结合 上 面 的 分 析 来 看 下 面 的 示例 代码 : 


层 中 的 每 一 个 元 素 又 由 4 个 元 素 构成 ， 如 a[0] 又 由 a[0][0]、a[0][1]、a[0][2] 与 a[0][3] 等 4 个 元 素 组 成 。 


int main (void) 


int a[5] [4]; 

int i=0; 

int j=0; 

printf ("sizeof (a) : 
Printf ("sizeof (a[0]) : 
printf ("sizeof (a[0] [0]) : 
Brint£ (™* 
printf ("sizeof (&a) : 
printf ("sizeof (&a[0]) : 
printf ("sizeof (&a[0] [0]) : 
printf (™ 


\n") 


%d\n", sizeof (a) ) ; 
sd\n", sizeof (a[0] 
%d\n", sizeof (a[0] [0] 


ya 


gd\n", sizeof (&a) ) ; 
%d\n", sizeof (&a[0]) ) ; 
%d\n", sizeof (&a[0] [0]) ) ; 


nm) 
printf ("ga: Sd\n", &a) ; 
printf ("ga[0]: sd\n", &a[0]) ; 
printf ("ga[0] [0]: sd\n", &a[0] [0]) 
Brintf (Mm 时 


for (i=0; i<5; i++) 


printf ("ga[l%d]: 
for (j=0; j<4; j++) 
{ 
printf ("&a[sd] [sd] : 
} 


return 0; 


} 


Sd\n", i, &a[li 


D3 


sd\n", i, j, &a[i][j]); 


在 上 面 的 示例 代码 中 ， 由 于 数组 名 代表 的 是 数组 首 元 素 的 首 地 址 ， 


此 下 面 的 三 行 代码 的 输出 结果 都 是 相同 的 : 


printf ("&a: gd\ y 
printf ("ga[0]: 


printf ("ga[0] [0]: 


n", &a) ; 
%d\n", &a[0]) ; 


sd\n", &a[0] [0]) ; 


同时 ， 当 将 a[0] 作 为 一 个 数组 名 称 时 ， 该 数组 的 首 地 址 也 就 保存 在 a[0] 中 (这 里 a[0] 作 为 一 个 整体 看 作 数 组 名 ， 而 不 是 一 个 数组 的 元 素 ) 。 


的 首 地 址 ， 即 下 面 的 两 行 代 码 输出 的 结果 是 等 价 的 : 


取 地 址 运算 符 &， 直 接 输出 a[0] 的 值 也 可 得 到 数组 


因此 , 不 


printf ("&a[0] : 


printf ("&a[0]: SN BLO 


%d\n", &a[0]) ; 


图 


6-4 所 示 。 


运行 上 面 的 示例 代码 ， 其 结果 如 


| 丽 C\Windows\system32\ 


sizeof Ca>: 


SD 


sizeof Ca[@]1[@]>: 


1 


sizeof C&a[@]>: 


izeof C&a[l@]L@]>: 


Raraelrol: 
&argBlrl1: 
了 aa[DB]I[2]: 
8&arglr[31: 
Rardli]: 

&alli [0]: 
&arli]lrt]: 
&arli]r21: 
&arli1r[31: 
&ar21: 

&ar21[91: 
&ar21[t]: 
&ar21[21]: 
&al2][3]: 
Ral3]: 

Rar31[91: 
ar31rt]: 
&ar31[21]: 
&ar31[31: 
&ar41]: 

&ar41[6]: 
&ar41rt1]: 
&ar41[21: 
ar41[31: 


2881336 
2881336 
2881336 


2881336 
p41 
2881340 
2881344 
2881348 

2881352 
2881352 
2881356 
2881368 
2881364 

2881368 
2881368 
2881372 
288137?6 
288138 晶 

2881384 
2881384 
2881388 
2881332 
2881336 

2881400 
5 
2881404 
2881488 
2881412 


图 6-4 “示例 代码 在 VC++2010 (32 位 系统 ) 中 的 运行 结果 


建议 52-2: 理解 &a[0] 和 &a 的 区 别 


在 对 上 面 的 数组 示例 分 析 的 过 程 中 ， 可 以 发 现 &a[0] 和 &a 的 值 是 相同 的 。 但 是 要 注意 ， 尽 管 它们 的 结果 相同 ， 但 其 所 表达 的 意义 却 完全 不 相同 ， 这 一 点 一 定 要 注意 。 


因为 数组 名 包含 数组 的 首 地 址 ( 即 数组 第 一 个 元 素 的 地 址 ) ， 或 者 说 数组 名 指向 数组 的 首 地 址 (或 第 一 个 元 素 ) ， 所 以 ， 对 于 &a， 表 示 取 数组 a 的 首 地 址 ; 而 对 于 &a[0]， 它 表示 取 数 组 首 元 素 a[0] 的 首 


地 址 。 这 就 好 像 陕西 的 省 政府 在 西安 ， 而 西安 的 市 政府 同样 也 在 西安 。 虽 然 两 个 政府 机 构 都 在 西安 ,但 其 代表 的 意义 完全 不 同 。 


建议 52-3: 理解 数组 名 a 作为 右 值 和 左 值 的 区 别 


当 数 组 名 a 作为 右 值 的 时 候 ， 其 意义 与 &a[0] 是 一 样 的 ， 代 表 的 是 数组 首 元 素 的 首 地 址 (注意 ， 不 是 数组 的 首 地 址 ， 这 一 点 一 定 要 区 分 开 ) 。 但 是 ， 这 仅仅 只 是 代表 ， 编 译 器 并 没有 为 其 分 配 一 块 内 存 空 


间 来 存放 其 地 址 ， 这 一 点 就 与 指针 有 很 大 的 差别 。 


同 理 ， 当 数组 名 a 作 为 左 值 的 时 候 ， 代 表 的 同样 是 数组 的 首 元 素 的 首 地 址 。 但 是 ， 这 个 地 址 开始 的 一 块 内 存 是 一 个 总 体 〈 即 数组 一 旦 定义 就 会 被 分 配 一 片 连续 的 存储 空间 ) 。 因 此 ， 我 们 只 能 访问 数组 的 


某 个 元 素 ， 而 无 法 把 数组 当 一 个 总 体 进行 访问 。 也 就 是 说 我 们 可 以 将 a[0] 作 为 左 值 ， 而 无 法 将 a 作 为 左 值 。 


建议 53: 避免 数组 越界 


所 谓 的 数组 越界 ， 简 单 地 讲 就 是 指数 组 下 标 变量 的 取 值 超过 了 初始 定义 时 的 大 小 ， 导 致 对 数组 元 素 的 访问 出 现在 数组 的 范围 之 外 ， 这 类 错误 也 是 C 语 言 程序 中 最 常见 的 错误 之 一 。 在 C 语 言 中 ， 数 组 必须 
是 静态 的 。 换 而 言 之 ,数组 的 大 小 必须 在 程序 运行 前 就 确定 下 来 。 由 于 C 语 言 并 不 具有 类 似 Java 等 语言 中 现 有 的 静态 分 析 工 具 的 功能 ， 可 以 对 程序 中 数组 下 标 取 值 范围 进行 严格 检查 ， 一 旦 发 现 数组 上 洪 或 


下 溢 ， 都 会 因 抛 出 异常 而 终止 程序 。 也 就 是 说 ，(C 语 言 并 不 检验 数组 边界 ， 数 组 的 两 端 都 有 可 能 越界 ， 从 而 使 其 他 变量 的 数据 甚至 程序 代码 被 破坏 ， 因 此 ， 数 组 下 标的 取 值 范围 只 能 预先 推断 一 个 值 来 确定 


数组 的 维 数 ， 而 检验 数组 的 边界 是 程序 员 的 职责 。 


一 般 情 况 下 ， 数 组 的 越界 错误 主要 包括 两 种 : 数组 下 标 取 值 越界 与 指向 数组 的 指针 的 指向 范围 越界 。 


1) 数组 下 标 取 值 越界 主要 是 指 访问 数组 的 时 候 ， 下 标的 取 值 不 在 已 定义 好 的 数组 的 取 值 范围 内 ， 而 访问 的 是 无 法 获取 的 内 存 地 址 。 例 如 ， 对 于 数组 int a[3]， 它 的 下 标 取 值 范围 是 [0，2] ( 即 a[0]、a[1] 


与 a[2]) 。 如 果 我 们 的 取 值 不 在 这 个 范围 内 (如 a[3]) ， 就 会 发 生 越 界 错误 。 示 例 代 码 如 下 所 示 : 


int a[3]; 

int i=0; 

for (i=0; i<4; i++) 
{ 


a[il = i; 
} 
for (i=0; i<4; i++) 


printf ("a[%d]=%d\n", i, a[i]) ; 


很 显然 ， 在 上 面 的 示例 程序 中 ， 访 问 a[3] 是 非法 的 ， 将 会 发 生 越界 错误 。 因 此 ， 我 们 应 该 将 上 面 的 代码 修改 成 如 下 形式 : 


int alS}s 
int i=0; 
for (i=0; i<3; i++) 
{ 
alil si 
} 
for (i=0; i<3; i++) 


printf ("a[l%d]=%d\n", i, a[i]) ; 


2) 指向 数组 的 指针 的 指向 范围 越界 是 指定 义 数组 时 会 返回 一 个 指向 第 一 个 变量 的 头 指 针 ， 对 这 个 指针 进行 加 减 运算 可 以 向 前 或 向 后 移动 这 个 指针 ， 进 而 访问 数组 中 所 有 的 变量 。 但 在 移动 


指针 时 ， 如 果 


不 注意 移动 的 次 数 和 位 置 ， 会 使 指针 指向 数组 以 外 的 位 置 ， 导 致 数组 发 生 越 界 错误 。 下 面 的 示例 代码 就 是 移动 指针 时 没有 考虑 到 移动 的 次 数 和 数组 的 范围 ， 从 而 使 程序 访问 了 数组 以 外 的 存储 和 


bbs 生 

int 好 

int a[5]; 

/* 数 组 a 的 头 指针 赋值 给 指针 p*/ 
p=a; 

for (i=0; i<10; i++) 


/* 指 针 p 指 向 的 变量 */ 
*p=i+10; 
/* 指 针 p 下 一 个 变量 */ 
p++; 

1 


元 。 


在 上 面 的 示例 代码 中 ，for 循 环 会 使 指针 p 向 后 移动 10 次 ， 并 且 每 次 向 指针 指向 的 单元 赋值 。 但 是 ， 这 里 数组 a 的 下 标 取 值 范围 是 [0，4] ( 即 a[0]、a[1]、a[2]、a[3] 与 a[4]) 。 因 此 ， 后 5 次 的 操作 会 对 未 


知 的 内 存 区 域 赋值 ， 而 这 种 向 内 存 未 知 区 域 赋值 的 操作 会 使 系统 发 生 错 误 。 正 确 的 操作 应 该 是 指针 移动 的 次 数 与 数组 中 的 变量 个 数 相同 ， 如 下 面 的 代码 所 示 : 


i 环 

nt *p; 

int a[5]; 

/* 数 组 a 的 头 指 针 赋值 给 指针 p*/ 

Fa 

for (i=0; i<5; i++) 

{ 
/* 指 针 p 指 向 的 变量 */ 
*p=i+10; 
/* 指 针 Pp 下 一 个 变量 */ 
p+t+; 


为 了 加 深 大 家 对 数组 越界 的 了 解 ， 下 面 通过 一 段 完 整 的 数组 越界 示例 来 演示 编程 中 数组 越界 将 会 导致 哪些 问题 。 


#define PASSWORD "123456" 

int Test (char *str) 

{ 
int flag; 
char buffer[7]; 
flag=strcmp (str, PASSWORD) ; 
strcpy (buffer, str) ; 
return flag; 


int main (void) 


int flag=0; 
char str[1024]; 
while (1) 

{ 


retur 


上 面 的 示人 


(Buffer overflow) ) 


printf ("请 输入 密码 :  ") ; 
Soomnt "yen ete 

flag = Test (str) ; 

if (flag) 


printf ("密码 错误 ! \n") ; 


printf ("密码 正确 ! \n") ; 


vs 


例 代码 模拟 了 一 个 密码 验证 的 例子 ， 它 将 用 户 输入 的 密码 与 宏 定义 中 的 密码 “123456” 进 行 比较 。 很 显然 ， 本 示例 中 最 大 的 设计 j 


由 于 程序 将 用 户 输入 的 字符 串 原 封 不 动 地 复制 到 Test () 函数 的 数组 char buffer[7] 中 。 因 此 ， 当 用 户 的 输入 大 于 7 个 字符 的 缓冲 区 尺寸 时 ， 就 会 发 生 数组 越界 错误 ， 


运行 结果 如 图 6-5 所 示 。 


maweilBmaweiv/c 


文件 (F) 编辑 [E] 查看 (V) 搜索 (5) 终端 (T) 帮助 (H) 
mawei@mnmawel c$ . /Test 
请 辐 和 六 密码 : 12345 
密码 庶 误 | 

请 输 六 密码 : 123456 


l234doBb7 


EE 


O123456 


在 示例 代码 中 ，flag 变 量 实际 上 是 一 个 标志 变量 ， 其 值 将 决定 着 程序 是 进入 
者 “aaaaaaa”， 程 序 也 都 会 输出 “密码 正确 ”。 但 在 输入 “0123456” 的 时 候 ， 程 序 却 输出 “密码 错误 ”， 这 究竟 是 为 什么 呢 ? 


因 很 简单 。 当 调用 Test () 函数 时 ， 系 统 将 会 给 它 分 配 一 片 连续 的 内 存 空间 ， 而 变量 char buffer[7] 与 int flag 将 会 紧 挨 着 进行 存储 ， 


图 6-5 “示例 代码 在 GCC 中 的 运行 结果 


局 洞 就 在 于 Test () 函数 中 的 strcpy (buffer，str) 调用 。 


这 也 就 是 大 家 所 谓 的 缓冲 区 溢出 


局 洞 。 但 是 要 注意 ， 如 果 这 个 时 候 我 们 根据 缓冲 区 溢出 发 生 的 具体 情况 填充 缓冲 区 ， 不 但 可 以 避免 程序 崩 演 ， 还 会 影响 到 程序 的 执行 流程 ， 甚 至 会 让 程序 去 执行 缓冲 区 里 的 代码 。 示 例 


“密码 错误 ”的 流程 ( 非 0) 还 是 “密码 正确 ”的 流程 (0) 。 如 图 6-5 所 示 ， 如 果 我 们 输入 错误 的 字符 串 “1234567” 或 


候 ， 我 们 输入 的 字符 串 数量 超过 6 个 (注意 ， 有 字符 串 截断 符 也 算 一 个 ) ， 那 么 超出 的 部 分 将 破坏 掉 与 它 紧邻 着 的 flag 变 量 的 内 容 。 


当 输 入 的 密码 不 是 宏 定 义 的 
包含 7 个 字符 的 错误 密码 ,， 丸 


0， 就 会 输出 


“密码 正确 ”。 这 样 ， 我 们 就 用 错误 的 密码 得 到 了 正确 密码 的 运行 效果 。 


户 输入 的 字符 串 将 会 被 复制 进 buffer[7] 中 。 如 果 这 个 时 


“123456” 时 ， 字 符 串 比 较 将 返回 1 或 -1。 我 们 都 知道 ， 内 存 中 的 数据 按照 4 字 节 (DWORD) 逆序 存储 ， 所 以 当 flag 为 1 时 ， 在 内 存 中 存储 的 是 0x01000000。 如 果 我 们 输入 
0“aaaaaaa”， 那 么 字符 串 截断 符 0x00 将 写 入 flag 变 量 ， 这 样 溢出 数组 的 一 个 字 节 0x00 将 恰好 把 逆序 存放 的 flag 变 量 改 为 0x00000000。 在 函数 返回 后 ， 一 旦 main 函 数 的 flag 为 


而 对 于 “0123456”， 因 为 在 进行 字符 串 的 大 小 比较 时 ， 它 小 于 “123456”，flag 的 值 是 -1， 在 内 存 中 将 按照 补 码 存放 负数 ， 所 以 实际 存储 的 不 是 0x01000000 而 是 0xffffffff。 那 么 字符 串 截断 后 符 


0x00 淹 没 后 ， 


变 成 0x00ffffff， 还 是 非 0， 所 以 没有 进入 正确 分 支 。 


其 实 ， 本 示例 只 是 用 一 个 字 节 淹没 了 邻接 变量 ， 导 致 程序 进入 密码 正确 的 处 理 流程 ， 使 设计 的 验证 功能 失效 。 


内 ， 也 不 检查 指向 数组 元 素 的 指针 是 不 是 移出 了 数组 


建议 53-1: 尽量 显 式 地 指定 数组 的 边界 
在 C 语 言 中 ， 为 了 提高 运行 效率 ， 给 程序 员 更 大 的 空间 ， 为 指针 操作 带 来 更 多 的 方便 ，( 语 言 内 部 本 身 不 检查 数组 下 标 表达 式 的 取 值 是 否 在 合法 范 
的 合法 区 域 。 因 此 ， 在 编程 中 使 用 数组 时 就 必须 格外 谨慎 ， 在 对 数组 进行 读 写 操作 时 都 应 当 进行 相应 的 检查 ， 以 免 对 数组 的 操作 超过 数组 的 边界 ， 从 而 发 生 缓 冲 区 溢出 


要 避免 程序 因数 组 越界 所 发 生 的 错误 ， 首 先 就 需要 从 数组 的 边界 定义 开始 。 


int a[]={1, 2, 3, 4, 5, 6, 7, 8, 9, 10}; 


尽量 显 式 地 指定 数组 的 边界 ， 即 使 它 已 经 由 初始 化 值 列表 隐 式 指定 。 示 例 代 码 如 下 所 示 : 


很 显然 ， 对 于 上 面 的 数组 a0] ， 虽 然 编译 器 可 以 根据 始 化 值 列表 来 计算 出 数组 的 长 度 。 但 是 ， 如 果 我 们 显 式 地 指定 该 数组 的 长 度 ， 例 如 : 


int a[10 


en he 生计 


它 不 仅 使 程序 


有 更 好 的 可 读 性 ， 并 且 大 多 数 编译 器 在 数组 长 度 小 于 初始 化 值 肌 


表 的 长 度 时 还 会 发 生 相 应 警告 。 


可 以 使 用 宏 的 形式 来 显 式 指定 数组 的 边界 (实际 上 ， 这 也 是 最 常 


的 指定 方法 ) ， 如 下 面 的 代码 所 示 : 


局 洞 。 


#define MAX 10… 


int a[MAX]={1 


， 2, 3, 4, 5, 6, 7, 8, 9, 10}; 


除 此 之 外 ， 在 C99 标 准 中 ， 还 允许 我 们 使 用 单个 指示 符 为 数组 的 两 段 “分配 ”空间 ， 如 下 面 的 代码 所 示 : 


int a[MAX]={1, 2, 3, 4, 5, 


[MAX-5]=6, 7, 8, 9, 10}; 


在 上 面 的 a[MAX] 数 组 中 ， 如 果 MAX 大 于 10， 数 组 中 间 将 用 0 值 元 素 进 行 填充 (填充 的 个 数 为 MAX-10， 并 从 a[5] 开 始 进行 0 值 填充 ) ; 如 果 MAX 小 于 10，“[MAX-5]” 之 前 的 5 个 元 素 
(1，2，3，4，5) 中 将 有 几 个 被 “[MAX-5]” 之 后 的 5 个 元 素 (6，7，8，9，10) 所 绪 盖 ， 示 例 代码 如 下 所 示 : 


#define MAX 10 
#define MAX1 15 
#define MAX2 6 
int main (void) 


} 


int a[MAX]={1, 2, 3, 4, 5, 


int b[MAX1]={1, 2, 3, 4, 5, 


int c[MAX2]={1, 2, 3, 4, 5, 
int i=0; 

int j=0; 

int z=0; 

printf ("a[MAX]: \n") ; 
for (i=0; i<MAX; i++) 

{ 


printf ("a[%d]=%d ", i, 


} 

printf ("\np[MAX1]: \n") ; 
for (j=0; j<MAX1; j++) 

{ 


printf ("b[sd]=sd ", j, 


} 

printf ("\nc[MAX2]: \n") ; 
for (z=0; Zz<MAX2; z++) 

{ 


printf ("c[%$d]=%d ", 2z, 


} 
printf ("\n") ; 
return 0; 


[MAX-5]=6, 7, 8, 9, 10}; 
[MAX1-5] 
[MAX2-5] 


6， 
6， 


= 8, 9, 10}; 
=6, 7 8; 9; 10}; 


示例 代码 运行 结果 如 图 6-6 所 示 。 


mawei@mawei 


al MAX] : 
得 直 | 二 济 岂 | 法 次 | 二 可 二 汪汪 到 恒 3 到 ES 二 | 鸭 
a 引 9] 0 
b[ MAX1] : 
b[0] 导 b[ll] 过 b[2] 对 b[3] 34 bl4] 考 b[5] -0 b[6] 20 bl?] 3 b[8] 2 
b[9] 0 b[10] 6 bl11] 3 bl12] 8 bl13] =9 bl14] 30 


mawei@mawei < 


c$ gcc - std=c99 -0 Test Test.c 
c$ ./Test 


人 c[3] = c[4] 3 c[5] 0 
$ 


图 6-6 ”示例 代码 在 GCC 中 的 运行 结果 


建议 53-2: 对 数组 做 越界 检查 ， 确 保 索引 值 位 于 合法 的 范围 之 内 


要 避免 数组 越界 ， 除 了 上 面 所 阐述 的 显 式 指定 数组 的 边界 之 外 ， 还 可 以 在 数组 使 用 之 前 进行 越界 检查 ， 检 查 数组 的 界限 和 字符 串 (也 以 数组 的 方式 存放 ) 的 结束 ， 以 保证 数组 索引 值 位 于 合法 的 范围 之 
内 。 例 如 ， 在 写 处 理 数组 的 函数 时 ， 一 般 应 该 有 一 个 范围 参数 ;在 处 理 字 符 串 时 总 检查 是 否 遇 到 空 字符 ^\0'。 


来 看 下 面 一 段 代 码 示例 : 


#define ARRAY NUM 10 
int *TestArray (int num, int value) 


{ 


} 


int *arr=NULL; 


arr= (int *) malloc (sizeof (int) *ARRAY NUM) ; 


if (arr! =NULL) 

arr [num]=value; 
else 

} /* 处 理 arr==NULL*/ 


return arr; 


从 上 面 的 “int*TestArray (int num，int value) ”函数 中 不 难看 出 ， 其 中 存在 着 一 个 很 明显 的 问题 ， 那 就 是 无 法 保证 hum 参数 是 否 越界 ( 即 当 num > =ARRAY_NUM 的 情况 ) 。 因 此 ， 应 该 对 num 参 
数 进行 越界 检查 ， 示 例 代 码 如 下 所 示 : 


int *TestArray (int num, int value) 
{ 
int *arr=NULL; 
/* 越 界 检查 ( 越 上 界 ) */ 
if (num<ARRAY NUM) 
{ 
arr= (int *) malloc (sizeof (int) *ARRAY NUM) ; 
if (arr! =NULL) 
{ 


arr [num]=value; 


/* 处 理 arr==NULL*/ 
i 
} 


return arr; 


这 样 通过 “if (num<ARRAY_NUM) ”语句 进行 越界 检查 ， 从 而 保证 num 参 数 没有 越过 这 个 数组 的 上 界 。 现 在 看 起 来 ，TestArray () 函数 应 该 没什么 问题 ， 也 不 会 发 生 什么 越界 错误 。 


但 是 ， 如 果 仔 细 检 查 ，TestArray () 函数 仍然 还 存在 一 个 致命 的 问题 ， 那 就 是 没有 检查 数组 的 下 界 。 由 于 这 里 的 num 参 数 类 型 是 int 类 型 ， 因 此 可 能 为 负数 。 如 果 num 人 参数 所 传递 的 值 为 负数 ， 将 导致 
在 arr 所 引用 的 内 存 边界 之 外 进行 写 入 。 


当然 ， 你 可 以 通过 向 “if (num<ARRAY_NUM) ”语句 里 面 再 加 一 个 条 件 进行 测试 ， 如 下 面 的 代码 所 示 : 


if (num>=0&&num<ARRAY NUM) 
{ 


i 


但 是 ， 这 样 的 函数 形式 对 调用 者 来 说 是 不 友好 的 (由 于 int 类 型 的 原因 ， 对 调用 者 来 说 仍然 可 以 传递 负数 ， 至 于 在 函数 中 怎么 处 理 那 是 另外 一 件 事情 ) ， 因 此 ， 最 佳 的 解决 方案 是 将 num 参 数 声明 为 
size_t 类 型 ， 从 根本 上 防止 它 传递 负数 ， 示 例 代码 如 下 所 示 : 


int *TestArray (size t num, int value) 
{ 
int *arr=NULL; 
/* 越 界 检查 ( 越 上 界 ) */ 
if (num<ARRAY NUM) 
{ 
arr= (int *) malloc (sizeof (int) *ARRAY NUM) ; 
if (arr! =NULL) 
{ 


arr [num]=value; 


/* 处 理 arr==NULL*/ 
i 


return arr; 


建议 53-3: 获取 数组 的 长 度 时 不 要 对 指针 应 用 sizeof 操 作 符 


在 C 语 言 中 ，sizeof 这 个 其 狐 不 扬 的 家 伙 经 常会 让 无 数 程序 员 叫 苦 连连 。 同 时 ， 它 也 是 各 大 公司 争 相 选 用 的 面试 必 备 题目 。 简 单 地 讲 ，sizeof 是 一 个 单 目 操 作 符 ， 不 是 函数 。 其 作用 就 是 返回 一 个 操作 数 
所 占 的 内 存 字 节 数 。 其 中 ， 操 作 数 可 以 是 一 个 表达 式 或 括 在 括号 内 的 类 型 名 ， 操 作 数 的 存储 大 小 由 操作 数 的 类 型 来 决定 。 例 如 ， 对 于 数组 int a[5]， 可 以 使 用 “sizeof (a) ”来 获取 数组 的 长 度 ， 使 
“sizeof (a[0]) ”来 获取 数组 元 素 的 长 度 。 


但 需要 注意 的 是 ，sizeof 操 作 符 不 能 用 于 函数 类 型 、 不 完全 类 型 ( 指 具有 未 知 存储 大 小 的 数据 类 型 ， 如 未 知 存储 大 小 的 数组 类 型 、 未 知 内 容 的 结构 或 联合 类 型 、void 类 型 等 ) 与 位 字段 。 例 如 ， 以 下 都 
是 不 正确 形式 : 


/* 若 此 时 max 定 义 为 intmax () ; */ 

sizeof (max) 

/* 若 此 时 arr 定 义 为 char arr[MAX] ， 且 MAX 未 知 */ 
sizeof (arr) 

/* 不 能 够 用 于 void 类 型 */ 

sizeof (void) 

/* 不 能 够 用 于 位 字段 */ 
struct S 

{ 

unsigned int fl : 
unsigned int f2 : 
unsigned int f3 : 


On 上 


}; 
sizeof ( S.f1 ) ; 


了 解 sizeof 操 作 符 之 后 ， 现 在 来 看 下 面 的 示例 代码 : 


void Init (int arr[]) 
{ 
size t i=0; 
for (i=0; i<sizeof (arr) /sizeof (arr[0]) ; i++) 
{ 
arr[il]=i; 


jE: 


int main (void) 
{ 
int i=0; 
int a[10]; 
Init (a) ; 
for (i=0; i<10; i++) 
{ 
Beintf ("Wa" a[il} 3 
} 


return 0; 


从 表面 看 ， 上 面 代码 的 输出 结果 应 该 是 “0，1，2，3，4，5，6，7，8，9”， 但 实际 结果 却 出 乎 我 们 的 意料 ， 如 图 6-7 所 示 。 


-858993460 
-858993460 
-858993469 


图 6-7 “示例 代码 在 VC++2010 中 的 运行 结果 


是 什么 原因 导致 这 个 结果 呢 ? 


很 显然 ， 上 面 的 示例 代码 在 “void Init (int arr[) ”函数 中 接收 了 一 个 “int arr[” 类 型 的 形 参 ， 并 且 在 main 函 数 中 向 它 传递 一 个 “a[10]” 实 参 。 同 时 ， 在 Init () 函数 中 通 


过 “sizeof (arr) /sizeof (arr[0]) ”来 确定 这 个 数组 元 素 的 数量 和 初始 化 值 。 


在 这 里 出 现 了 一 个 很 大 问题 : 由 于 arr 参 数 是 一 个 形 参 ， 它 是 一 个 指针 类 型 ， 其 结果 是 “sizeof (arr) =sizeof (int*) ”。 在 IA-32 中 ，“sizeof (arr) /sizeof (arr[0]) ”的 结果 为 1。 因 此 ， 最 后 的 结 


果 如 图 6-7 所 示 。 


对 于 上 面 的 示例 代码 ， 我 们 可 以 通过 传 入 数组 的 长 度 的 方式 来 解决 这 个 问题 ， 示 例 代 码 如 下 : 


void Init (int arr[], size t arr len) 


size 七 i=0; 
for (i=0; i<arr len; i++) 
{ 
arr[il]=i; 
} 
} 
int main (void) 
{ 
int i=0; 
nt alt0ls 
Th (ne TO 
for (i=0; i<10; i++) 
{ 
Erintf ("Sa\n", a[lil) 3 


return 0; 


除 此 之 外 ， 我 们 还 可 以 通过 指针 的 方式 来 解决 上 面 的 问题 ， 示 例 代码 如 下 所 示 : 


void Init (int (*arr) [10]) 
size 七 i=0; 
for (i=0; i< sizeof (*arr) /sizeof (int) ; i++) 


{ 
} 


(*arr) [i]=i; 


int main (void) 
int i=0; 
int a[10]; 
Init (&a) ; 
for (i=0; i<10; i++) 
{ 
printf ("$d\n", a[il]); 


return 0; 


现在 ，Init () 函数 中 的 arr 参 数 是 一 个 指向 “arr[10]” 类 型 的 指针 。 需 要 特别 注意 的 是 ， 这 里 绝对 不 能 够 使 用 “void Init (int (*arr) 0) ”来 声明 函数 ， 而 是 必须 指明 要 传 入 的 数组 的 大 小 ， 否 


则 “sizeof (*arr) ”无 法 计算 。 但 是 在 这 种 情况 下 ， 再 通过 sizeof 来 计算 数组 大 小 已 经 没有 意义 了 ， 因 为 此 时 数组 大 小 


建议 54: 数组 并 非 指针 


\ 已 经 指定 为 10 了 。 


在 C 语 言 中 ， 对 数组 的 引用 总 是 可 以 写成 对 指针 的 引用 ， 而 且 也 确实 存在 一 种 指针 和 数组 定义 完全 相同 的 上 下 文 环境 。 因 此 ， 给 大 家 带 来 指针 和 数组 应 该 是 可 以 互 换 的 错觉 ， 大 家 也 会 自然 地 归纳 并 假 


定 在 所 有 的 情况 下 数组 和 指针 都 是 等 同 的 。 实 际 上 ， 并 非 所 有 情况 下 都 是 如 此 。 简 单 地 讲 ， 数 组 就 是 数组 ， 指 针 就 是 指 
和 指针 是 相同 的 ”这 种 说 法 是 危险 的 ， 是 不 完全 正确 的 。 


回顾 前 面 对 于 左 值 和 右 值 的 讨论 ， 编 译 器 为 每 个 变量 分 配 一 个 地 址 ( 左 值 ) ， 这 个 地 址 在 编译 时 可 知 ， 而 且 该 变量 
知 。 如 果 需 要 用 到 变量 中 存储 的 值 ， 编 译 器 就 发 出 指令 从 指定 地 址 读 入 变量 值 并 将 它 存 于 寄存 器 中 。 


针 ， 它 们 之 间 没 有 任何 关系 ， 只 是 经 常 穿 着 相似 的 衣服 来 迷惑 你 喷 了 。 因 此 ，“ 数 组 


在 运行 时 一 直 保存 于 这 个 地 址 。 相 反 ， 存 储 于 变量 中 的 值 ( 右 值 ) 只 有 在 运行 时 才 可 


这 里 需要 注意 的 是 ， 由 于 编译 器 为 每 个 变量 分 配 一 个 地 址 ( 左 值 ) ， 这 个 地 址 在 编译 时 可 知 ， 因 此 ， 如 果 编译 器 需 
不 需要 增加 指令 首先 取得 具体 的 地 址 。 示 例 代码 如 下 所 示 : 


一 个 地 址 (可 能 还 需要 加 上 偏 移 量 ) 来 执行 某 种 操作 ， 它 就 可 以 直接 进行 操作 ， 并 


char a[6]="hello"; 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/... 


c=al[il]; 


对 于 上 面 的 示例 代码 ， 在 定义 数组 a 时 ， 编 译 器 就 在 某 个 地 方 保存 了 a 的 首 元 素 的 首 地 址 ， 这 里 假设 地 址 为 10000 ( 即 a 是 一 个 地 址 ， 编 译 器 会 为 数组 a 分 配 一 个 空间 ， 但 不 会 为 a 本 身分 配 空间 ) ， 如 
8 所 示 。 


10 000 


网 
? 


+l*sizeof(char) 


现在 ， 要 取 a 中 的 内 容 可 以 分 为 如 下 两 步 进行 : 


tl*slzeof(char) 


图 6-8 ”对 数组 下 标的 引用 


1) 计算 a 中 的 地 址 : 10000+i*sizeof (char) 。 


2) 取 10000+i*sizeof (char) 地 址 上 的 内 容 。 


除了 图 6-8 之 外 ， 我 们 还 可 以 通过 下 面 一 段 汇编 代码 来 清楚 地 看 见 其 执行 步骤 (Microsoft Visual Studio 2010 的 Debug 模 式 ) : 


char a[6]="hello"; 


00A13718 mov eax, dword ptr [string "hello" (OA157AO0h) ] 

00A1371D mov dword ptr [ebp-10h], eax 

00A13720 mov cx, word ptr ds: [0A157A4h] 

00A13727 mov word ptr [ebp-0Ch], cx 
char a0=a[0]; 

00A1372B mov al, byte ptr [ebp-10h] 

O00A1372E mov byte ptr [ebp-19h] ，al 
char al=a[1]; 

00A13731 mov al, byte ptr [ebp-0Fh] 

00A13734 mov byte ptr [ebp-25h], al 
char a2=a[2]; 

00A13737 mov al, byte ptr [ebp-0Eh] 

00A1373A mov byte ptr [ebp-31h], al 


相反 ， 对 指针 变量 而 言 ， 编 译 器 要 为 之 分 配 一 个 空间 。 在 对 一 个 指针 变量 进行 引用 的 时 候 (比如 (*p) ) ， 编 译 器 首先 需要 得 到 p 的 地 址 ， 从 中 取 值 ， 然 后 把 得 到 的 值 作 为 地 址 ， 再 取 值 。 示 例 代码 如 


下 所 示 : 


char *p="hello™; 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/... 


c=*p; 


对 比 前 面 的 数组 ， 它 的 执行 步骤 如 图 6-9 所 示 。 


] 


001] 


图 6-9 对 指针 的 引用 


1) 这 里 假设 p 的 地 址 为 1001， 取 出 地 址 1001 上 的 内 容 2001。 


2) 再 取出 地 址 2001 上 的 内 容 。 


汇编 代码 如 下 (Microsoft Visual Studio 2010 的 Debug 模 式 ) : 


2001 


00D313D5 mov eax, dword ptr [p] 
00D313D8 mov cl, byte ptr [eax] 


很 显然 ， 对 数组 而 言 ， 指 针 的 访问 要 灵活 得 多 


， 但 需要 增加 一 次 额外 的 提取 。 


通过 上 面 的 阐述 ， 相 信 你 对 数组 与 指针 之 间 的 


区 别 已 经 有 了 一 定 的 了 解 ， 现 在 继续 看 下 面 两 种 情况 。 


(1) 定义 为 数组 ， 声 明 为 指针 


这 里 需要 特别 强调 一 下 变量 的 声明 与 定义 之 间 的 区 别 。 简 单 地 齐 ， 声 明 就 是 告诉 编译 器 存在 着 这 么 一 个 变量 ， 但 是 编译 器 并 不 会 为 它 分 配 任何 内 存 ( 即 并 不 实现 它 ) 。 而 定义 则 是 实现 这 个 变量 ， 真 正 
在 内 存 ( 堆 或 栈 ) 中 为 此 变量 分 配 空间 。 定 义 只 能 出 现 一 次 ， 而 声明 可 以 出 现 多 次 。 


理解 了 这 些 内 容 ， 来 看 下 面 的 示例 代码 : 


Dit ou/ 

int a[3]={0, 1, 2}; 

jx 文件 2: £2。.0*/ 

int main (void) 

{ 
extern int *a; 
printf ("%d\n", a[0]); 
return 0; 


i 


在 上 面 的 示例 代码 中 ， 我 们 在 f1.c 中 定义 了 一 个 数组 a， 在 f2.c 中 声明 了 一 个 指针 变量 a。 其 中 ,语句 “extern int*a” 告 诉 编译 器 : a 这 个 名 字 已 经 在 别 的 文件 中 被 定义 了 ， 下 面 的 代码 使 用 的 名 字 a 是 别 
的 文件 定义 的 。 因 此 ， 编 译 器 此 时 一 定 不 会 做 什么 分 配 内 存 的 事 ， 因 为 它 就 是 声明 ， 仅 仅 表 明 下 面 的 代码 引用 了 一 个 符号 。 


但 是 ， 当 你 声明 “extern int*a” 时 ， 编 译 器 理所当然 地 认为 a 是 一 个 指针 变量 ， 在 32 位 系统 下 ， 占 4 字 节 。 这 4 字 节 保存 了 一 个 地 址 ， 这 个 地 址 上 保存 的 是 int 类 型 的 数据 。 虽 然 在 f1.c 中 ， 编 译 器 知道 a 


是 一 个 数组 ， 但 是 在 f2.c 中 ， 编 译 器 并 不 知道 这 点 。 大 多 数 编译 器 是 按 文件 分 别 编译 的 ， 编 译 器 只 按照 本 文件 中 声明 的 类 型 来 处 理 。 所 以 ， 虽 然 a 在 f1.c 中 实际 大 小 为 12 字 节 ， 但 是 在 f2.c 中 ， 编 译 器 认为 a 只 
占 4 字 节 。 


由 此 可 见 ，“extern int*a” 这 种 声明 方法 是 完全 错误 的 ， 它 会 按照 指针 的 方法 来 引用 数组 。 同 时 ， 在 一 些 编译 器 中 也 会 给 出 报错 提示 ， 如 在 Microsoft Visual studio 2010 中 将 给 出 错误 提示 : “error 
C2372: 'a': redefinition; different types of indirection” 。 


正确 的 声明 方法 应 该 是 : 


extern int a[]; 
/+ 或 者 */ 


extern int a[3] 


示例 代码 如 下 所 示 : 


int main (void) 

{ 
extern int a[]; 
printf ("%d\n", a[0]); 
return 0; 


} 


这 里 的 extern int a[ 与 extern int a[3] 是 等 价 的 。 因 为 这 只 是 声明 ， 不 分 配 空间 ， 所 以 编译 器 无 需 知道 这 个 数组 有 多 少 个 元 素 。 这 两 个 声明 都 告诉 编译 器 : a 是 在 别 的 文件 中 被 定义 的 一 个 数组 ，a 同 时 
代表 着 数组 a 的 首 元 素 的 首 地 址 ， 也 就 是 这 块 内 存 的 起 始 地 址 。 数 组 内 任何 元 素 的 地 址 都 只 需要 知道 这 个 地 址 就 可 以 计算 出 来 。 


(2) 定义 为 指针 ， 声 明 为 数组 


根据 上 面 的 分 析 不 难看 出 ， 如 果 在 文件 1 中 定义 为 指针 ， 而 在 文件 2 中 声明 为 数组 ， 也 同样 会 发 生 错误 ， 示 例 代 码 如 下 所 示 : 


/* 文 件 3: £3。.C*/ 

char *pa = "hello"; 

/* 文 件 4: £4.c*/ 

int main (void) 

{ 
extern char pa[]; 
printf Se\n", peal0])s 
return 0; 


} 


同样 ， 在 Microsoft Visual Studio 2010 将 给 出 错误 提示 : “error C2372: 'pa': redefinition; different types of indirection”。 因 为 本 来 针对 数组 需要 对 内 存 进行 直接 引 
行 的 却 是 对 内 存 进行 间接 引用 。 


， 但 是 这 时 编译 器 所 执 


正确 的 声明 方法 应 该 是 : 


extern char *pa 


由 此 可 见 ， 声 明 与 定义 应 该 完全 相 匹 配 。 同 时 ， 这 也 证 明了 “数组 和 指针 是 相同 的 ”这 种 说 法 的 错误 性 。 数 组 和 指针 在 编译 器 处 理 的 时 候 是 不 同 的 ， 在 运行 时 的 表示 形式 也 不 一 样 。 对 编译 器 而 言 ， 一 
个 数组 就 是 一 个 地 址 ， 一 个 指针 就 是 一 个 地 址 的 地 址 ， 你 应 该 根据 情况 进行 选择 。 表 6-1 列 出 了 指针 与 数组 的 常见 区 别 。 


表 6-1 指针 与 数组 的 区 别 


指 针 数 组 

保存 数据 的 地 址 ， 任 何 存 人 指针 变量 p 的 数据 都 会 | ”保存 数据 ， 数 组 名 a 代表 的 是 数组 首 元 素 的 首 地 址 ，&a 
被 当 作 地 址 来 处 理 是 整个 数组 的 首 地 址 

间接 访问 数据 ， 首 先 取 得 指针 变量 p 的 内 容 ， 把 它 | 直接 访问 数据 ， 数 组 名 a 是 整个 数组 的 名 字 ， 数 组 内 每 
作为 地 址 ， 和 个 地 址 提取 数据 或 向 这 个 地 址 写 | 个 元 素 并 没有 名 字 。 只 能 通 过 * 具名 + 匿名 ”的 方式 来 访 
人 数据 er 不 能 把 数组 当 一 个 整 人 体 进 行 读 写 操作 

指针 可 以 以 指针 的 形式 访问 “*(p+ti)”; 也 可 以 以 下 | 数组 可 以 以 指针 的 形式 访问 “ *(ati)”， I 以 下 籽 的 
标的 形式 访问 “p[]”。 但 其 本 质 都 是 先 取 p 的 内 容 后 形式 访问 “ai”。 但 其 本 质 者 名 是 a 所 代表 的 数组 首 元 素 的 


加 上 “i*sizeof( 类 型 )” 字 节 作 为 数据 的 真正 地 址 首 地 址 加 上 “ixsizeof 类 型 )” 字 节 来 作为 数据 的 真正 地 址 
站 常用 于 动态 数据 结构 通常 用 于 存储 固定 数目 且 数 据 类 型 相同 的 元 素 
需要 malloc 和 free 等 相关 的 函数 进行 内 存 分 配 隐 式 分 配 和 删除 
通常 指向 匿名 数据 目 丑 即 为 数组 名 


建议 55: 理解 数组 与 指针 的 可 交换 性 


星 然 “ 数 组 并 非 指针 ”， 但 是 它们 两 者 之 间 在 实际 应 用 中 确实 存在 着 很 多 可 交换 性 。 对 于 此 ，ANSI C 也 做 了 相关 说 明 ， 主 要 表现 在 下 面 3 点 。 


1.“ 表 达 式 中 的 数组 名 ”就 是 指针 


表达 式 中 的 数组 名 (数组 在 使 用 中 ， 而 不 是 声明 中 ) 被 编译 器 当 作 一 个 指向 该 数组 第 一 个 元 素 的 指针 。 也 就 是 说 ， 当 一 个 数组 名 出 现在 一 个 表达 式 中 时 ， 它 会 被 转换 为 一 个 指向 该 数组 第 一 个 元 素 的 指 
针 。 假 如 我 们 声明 了 如 下 3 个 变量 : 


int a[50]; 
int i=20; 
int *p; 


我 们 可 以 通过 以 下 几 种 方法 来 访问 a[i]: 


/* 方 式 1: */ 
/* 方 式 2: */ 
/* 方 式 3: */ 


/* 方 式 4: */ 


/* 方 式 5: */ 


实际 上 ， 对 数组 的 引用 如 a 由 ， 在 编译 时 总 是 被 编译 器 编译 为 “* (a+1) ”的 形式 ， 因 此 在 一 个 表达 式 中 数组 名 也 就 成 了 指针 。 


2 数组 下 标 就 是 指针 的 偏 移 量 


其 实 ， 数 组 下 标 总 是 与 指针 的 偏 移 量 相同 ， 所 以 程序 员 完全 可 以 使 用 指针 来 访问 数组 ， 从 而 绕 过 下 标 操作 符 。 在 这 种 情况 下 ， 对 数组 下 标 范围 检查 并 不 能 检测 出 所 有 对 数组 的 访问 情况 。 因 此 ，( 语 言 
并 不 进行 下 标 范 围 检 测 。 但 是 我 们 在 编写 程序 的 时 候 ， 要 小 心 ， 不 要 越界 。 


函数 形 参 中 的 数组 名 被 当 作 指 向 第 一 个 元 素 的 指针 


在 C 语 言 中 ， 在 函数 形 参 这 个 特殊 情况 下 ， 编 译 器 必须 把 数组 形式 改写 成 指向 数组 第 一 个 元 素 的 指针 形式 。 编 译 器 只 向 该 函数 传递 数组 的 地 址 ， 而 不 是 整个 数组 的 副本 。 编 译 器 之 所 以 采取 这 样 的 做 
法 ， 主 要 从 效率 方面 考虑 。 设 想 一 下 ， 如 果 复 制 的 是 整个 数组 ， 无 论 在 时 间 上 还 是 在 内 存 空间 上 开销 都 比较 大 。 因 此 ，( 语 言 标准 中 规定 : “所 有 数组 在 作为 参数 传递 时 ， 都 转换 为 指向 数组 起 始 地 址 的 指 
针 ， 而 其 他 参数 均 采用 传 值 调 用 ”， 这 样 也 可 以 简化 编译 器 的 设计 。 


同 理 ， 函 数 的 返回 值 也 不 可 能 是 一 个 数组 ， 而 是 指向 数组 的 指针 。 同 时 ， 这 里 实际 上 体现 出 了 一 个 “ 传 值 ”与 “ 传 址 ”的 区 别 。 在 函数 内 部 使 用 指针 ， 所 能 进行 的 对 数组 的 操作 几乎 与 传递 原本 的 数组 
没 喻 差别。 但 是 如 果 想 用 sizeof ( 实 参 ) 来 获取 数组 的 长 度 ， 得 到 的 结果 并 不 是 数组 的 长 度 。 示 例 代码 如 下 所 示 : 


void fp (char *a) 
{ 


printf ("%d", ot (a) } 3 
printf (" >%s\n", 


void fa (char a[]) 
{ 


printf ("\n%d", sizeof (a) ) ; 
Printf ("~->%s\n", a) $ 


int main (void) 
{ 
char c[]="Hello! "; 
char *p="Hello! "; 
Fa (un) 3 
fp (ey 
fa (pY$ 
fp (p) ; 
return 0; 


运行 结果 如 图 6-10 所 示 。 


maweid@mawel:~/c 


康 件 {E】 编 各 (E) 查看 (WW 搜索 15) 安 兹 (Ti 带 助 (H) | 
[maweiBmawei cl$ gece Test.c -o Test [ 访 
[maweiBmawei cj .A/Test 


图 6-10 “示例 代码 在 GCC 中 的 运行 结果 


如 图 6-10 所 示 ， 函 数 fa 和 fp 被 调用 ， 执 行 的 结果 是 一 样 的。 但 是 值得 注意 的 是 ， 其 中 “sizeof (a) ” 值 并 不 是 数组 的 大 小 7， 而 为 4， 这 是 为 什么 呢 ? 原因 很 简单 ， 这 里 的 a 代 表 的 是 一 个 指针 ， 指 针 的 
大 小 就 是 4 字 节 ， 这 也 证 明了 上 面 的 分 析 。 


为 了 进一步 理解 这 个 问题 ， 继 续 看 下 面 的 示例 代码 : 


void fp (char *s) 
{ 


printf ("%d\n", s 
printf ("%d\n", & 
printf ("%d\n", & 
printf ("“%d\n", & 


int main (void) 
char c[]="HellO! "; 
fp (we) 3 
return 0; 


} 


在 上 面 的 代码 中 : 
“printf ("Yod\n"，s) ”， 该 语句 应 该 输出 的 是 指针 变量 s 的 值 ， 也 就 是 数组 元 素 的 首 地 址 。 
“Printf ("Yd\n"，&s) ”， 该 语句 应 该 输出 的 是 编译 器 向 实 参 s 分 配 的 地 址 ， 是 一 个 栈 区 域 的 地 址 值 。 


“printf ("Yod\n"，& (s[0]) ) ”， 该 语句 应 该 输出 的 是 数组 中 第 一 个 元 素 的 地 址 值 ， 与 上 面 的 语句 “printf ("Yd\n"，s) ”结果 相同 。 


“printf ("%d\n"，& (s[1]) ) ”， 该 语句 输出 的 是 数组 中 第 二 个 元 素 的 地 址 值 ， 它 的 输出 值 比 语句 “printf ("%dNn"，s) ”与 “printf ("Yd\n"，& (s[0]) ) ”大 1。 


运行 结果 如 图 6-11 所 示 。 


El He 
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图 6-11 示例 代码 在 GCC 中 的 运行 结果 


建议 56: 禁止 将 一 个 指向 非 数组 对 象 的 指针 加 上 或 减 去 一 个 整数 


也 就 是 说 ， 当 对 指针 进行 算法 运算 时 (这 里 的 算术 运算 只 限于 指针 加 上 或 减 去 某 个 整数 ) ， 必 须 是 指向 数组 对 象 的 元 素 。 如 下 面 的 代码 所 示 : 


int *p; 


int arr[10]; 
P = arr; 
P=P+5; 


++P; 


如 果 将 指针 运算 写成 下 面 的 这 种 形式 ， 虽然 程 序 可 以 运行 ， 但 却 是 不 允许 这 样 做 的 : 


int *p; 
rb 4s 
p= &i; 
p=p+5; 
++p; 


与 此 同时 ， 还 应 该 尽量 只 使 用 数组 索引 来 做 指针 和 运算， 示例 代码 如 下 所 示 : 


int *p; 
int arr[10]; 


如 果 这 里 将 语句 “p[2]=0” 写 成 “* (p+2) =0”， 尽 管 相对 于 “p[2]=0” 写 成 “* (p+2) =0” 而 言 ， 二 者 都 是 等 价 的 ， 但 一 般 不 建议 这 样 做 。 


建议 57: 禁止 对 两 个 并 不 指向 同一 个 数组 的 指针 进行 相 减 或 比较 


如 果 两 个 指针 指向 同一 个 数组 ， 它 们 就 可 以 相 减 ， 其 结果 为 两 个 指针 之 间 的 元 素数 目 (这 里 需要 特别 注意 的 是 元 素数 目 ， 而 不 是 字 节 数目 ) 。 也 就 是 说 ， 可 以 利用 两 个 指向 同一 数组 的 指针 相 减 得 到 两 
个 指针 之 间 元 素 的 个 数 。 


但 如 果 两 个 指针 不 是 指向 同一 个 数组 ， 那 么 它们 的 结果 是 未 定义 的 ， 即 使 它们 指向 的 地 址 在 内 存 中 的 位 置 正好 间隔 一 个 数组 元 素 的 整数 倍 ， 所 得 的 结果 仍然 是 无 法 保证 其 正确 性 的 。 同 时 ， 这 样 的 指针 
相 减 也 就 没有 任何 意义 了 。 


同 理 ， 也 只 有 指向 同一 个 数组 的 两 个 指针 才 人 允许 用 >、> =、“< 与 <= 等 关系 运算 符 进行 比较 。 


建议 58: 若 结果 值 并 不 引用 合法 的 数组 元 素 ， 不 要 将 指针 加 上 或 减 去 一 个 整数 


也 就 是 说 ， 如 果 一 个 指针 加 上 或 减 去 一 个 整数 后 ， 其 结果 将 不 再 指向 数组 中 的 元 素 ， 又 或 者 是 数组 最 后 一 个 元 素 之 后 的 那个 位 置 ， 其 行为 是 未 定义 的 。 同 时 ， 这 还 可 能 导致 缓冲 区 溢出 。 来 看 下 面 的 示 
例 代码 : 


int arr[10]; 

int *p; 

for (p=&arr[0]; p<&arr[11]; p++) 
{ 

} 


在 上 面 的 代码 中 ， 对 arr[10] 这 样 引用 是 允许 的 ， 即 使 不 存在 这 个 元 素 。 但 是 ， 对 arr[11] 的 引用 将 导致 未 定义 的 行为 。 与 此 同时 ， 在 最 后 一 次 循环 时 ， 表 达 式 p++ 还 将 导致 溢出 。 合 理 的 解决 方案 如 下 画 
的 代码 所 示 : 


int arr[10]; 
dnt *p; 
for (p=&arr[0]; p<&arr[sizeof (arr) /sizeof (arr[0]) ]; p++) 


} 


建议 59: 细 说 缓冲 区 溢出 


通过 上 面 的 示例 程序 与 讲解 ， 相 信 大 家 对 “缓冲 区 溢出 ” (Buffer overflow) 这 个 概念 有 了 一 定 的 认识 。 虽 然 “ 缓 冲 区 溢出 ”对 现代 操作 系统 与 编译 器 来 讲 已 经 不 是 什么 大 问题 ， 但 是 作为 一 个 合格 的 
C 程 序 员 ， 还 是 完全 有 必要 了 解 它 的 整个 细节 。 这 里 需要 特别 说 明 的 是 ， 为 了 更 好 地 演示 缓冲 区 溢出 ， 本 节 的 所 有 代码 示例 仅 限 于 在 Windows XP SP3+Visua | C++6.0 环 境 中 演示 运行 。 


简单 来 说， 缓冲 区 就 是 一 块 连续 的 计算 机 内 存 区 域 ， 它 可 以 保存 相同 数据 类 型 的 多 个 实例 ， 如 字符 数组 。 而 缓冲 区 溢出 则 是 指 当 计 算 机 向 缓冲 区 内 填充 数据 位 数 时 超过 了 缓冲 区 本 身 的 容量 ， 溢 出 的 数 
据 履 盖 在 合法 数据 上 。 


通常 ， 在 理想 的 情况 下 ， 程 序 检查 数据 长 度 并 不 允许 输入 超过 缓冲 区 长 度 的 字符 。 然 而 ， 由 于 C 语 言 没有 任何 内 置 的 边界 检查 ， 在 写 入 一 个 字符 数组 时 ， 如 果 超 越 了 数组 的 结尾 就 会 造成 溢出 。 与 此 同 
时 ， 标 准 C 语 言 函数 库 提 供 了 一 些 没有 边界 检查 的 字符 串 处 理 函 数 ， 其 中 strcat () 、strcpy () 、sprintf () 与 vsprintf () 函数 对 一 个 null 结 尾 的 字符 串 进 行 操作 ， 并 不 检查 溢出 情况 ; gets () 函数 从 标 
准 输入 中 读 取 一 行 到 缓冲 区 中 ， 直 到 换行 或 EOF， 它 也 不 检查 缓冲 区 溢出 ; scanf () 函数 在 匹配 一 系列 非 空格 字符 (%s) 或 从 指定 集合 (%[]) 中 匹配 非 空 系列 字符 时 ， 使 用 字符 指针 指向 数组 ， 并 且 没 有 
定义 最 大 字段 宽度 这 个 可 选项 ， 就 可 能 出 现 问题 。 然 而 ， 如 果 这 些 函 数 的 目标 地 址 是 一 个 固定 大 小 的 缓冲 区 ， 而 函数 的 另外 参数 是 由 用 户 以 某 种 形式 输入 ， 则 很 有 可 能 被 人 利用 缓冲 区 溢出 来 破解 。 


加 
捍 


另 一 种 常见 的 编程 结构 是 使 用 while 循 环 从 标准 输入 或 某 个 文件 中 一 次 读 入 一 个 字符 到 缓冲 区 中 ， 直 到 行 尾 或 文件 结尾 ， 或 者 碰 到 其 他 什么 终止 符 。 这 种 结构 通常 使 用 getc () 、fgetc () 或 
getchar () 函数 中 的 某 一 个 ， 如 果 这 时 在 while 循 环 中 没有 明确 检查 溢出 ， 这 种 程序 就 很 容易 被 破解 。 


我 们 知道 ， 任 何 一 个 源 程序 通常 都 包括 代码 段 (或 者 称 为 文本 段 ) 和 数据 段 ， 这 些 代码 和 数据 本 身 都 是 静态 的 。 为 了 运行 程序 ， 首 先 要 由 操作 系统 负责 为 其 创建 进程 ， 并 在 进程 的 虚拟 地 址 空间 中 为 其 
代码 段 和 数据 段 建立 映射 。 但 是 只 有 静态 的 代码 段 和 数据 段 是 不 够 的 ， 进 程 在 运行 过 程 中 还 要 有 其 动态 环境 。 


6-12 展 示 了 程 


| 
区 


一 般 说 来 ， 默 认 的 动态 存储 环境 通过 堆栈 机 制 建立 。 所 有 局 部 变量 及 所 有 按 值 传递 的 函数 参数 都 通过 堆栈 机 制 自动 分 配 内 存 空间 ， 分 配 同一 数据 类 型 相 邻 块 的 内 存 区 域 被 称 为 缓冲 区 。 
序 在 内 存 中 的 映射 。 


堆栈 段 


文本 (代码 ) 上 


代码 段 ( .te 


图 6-12 程序 在 内 存 中 的 映射 


其 中 ， 代 码 段 (.text) 存放 着 程序 的 机 器 码 和 只 读数 据 ， 可 执行 指令 就 是 从 这 里 取得 的 。 如 果 可 能 ， 系 统 会 安排 好 相同 程序 的 多 个 运行 实体 共享 这 些 实例 代码 。 这 个 段 在 内 存 中 一 般 被 标记 为 只 读 ， 任 
何 对 该 区 的 写 操作 都 会 导致 段 错误 (Segmentation Fault) 。 


数据 段 在 编译 时 分 配 ， 它 包括 已 初始 化 的 数据 段 (.data) 和 未 初始 化 的 数据 段 (.bss) ， 已 初始 化 的 数据 段 用 来 存放 保存 全 局 的 和 静态 的 已 初始 化 变量 ， 而 未 初始 化 的 数据 段 则 用 来 保存 全 局 的 和 静态 
的 未 初始 化 变量 。 


堆栈 段 分 为 堆 (Heap) 和 栈 (Stack) 。 堆 用 来 存储 程序 运行 时 分 配 的 变量 ; 而 栈 则 是 一 种 用 来 存储 函数 调用 时 的 临时 信息 的 结构 ， 如 函数 调用 所 传递 的 参数 、 函 数 的 返回 地 址 、 函 数 的 局 部 变量 等 。 
在 程序 运行 时 由 编译 器 在 需要 的 时 候 分 配 ， 在 不 需要 的 时 候 自动 清除 。 这 里 需要 特别 注意 的 是 ， 堆 (Heap) 和 栈 (Stack) 是 有 区 别 的 ， 很 多 程序 员 混 淆 堆栈 的 概念 ， 或 者 认为 它们 就 是 一 个 概念 。 简 单 来 
说 ， 它 们 之 间 的 主要 区 别 可 以 表现 在 如 下 三 个 方面 。 


(1) 分 配 和 管理 方式 不 同 


堆 是 动态 分 配 的 ， 其 空间 的 分 配 和 释放 都 由 程序 员 控制 。 也 就 是 说 ， 堆 的 大 小 并 不 固定 ， 可 动态 扩张 或 缩减 ， 其 分 配 由 malloc () 等 这 类 实时 内 存 分 配 函 数 来 实现 。 当 进程 调用 malloc 等 函数 分 配 内 存 
时 ， 新 分 配 的 内 存 就 被 动态 添加 到 堆 上 ( 堆 被 扩张 ) ; 当 利用 free 等 函数 释放 内 存 时 ， 被 释放 的 内 存 从 堆 中 被 剔除 ( 堆 被 缩减 ) 。 


而 栈 由 编译 器 自动 管理 ， 其 分 配方 式 有 两 种 : 静态 分 配 和 动态 分 配 。 静 态 分 配 由 编译 器 完成 ， 比 如 局 部 变量 的 分 配 。 动 态 分 配 由 alloca () 函数 进行 分 配 ， 但 是 栈 的 动态 分 配 和 堆 是 不 同 的 ， 它 的 动态 
分 配 是 由 编译 器 进行 释放 ， 无 需 手工 控制 。 


(2) 产生 碎片 不 同 
对 堆 来 说 ， 频 繁 执行 malloc 或 free 势 必 会 造成 内 存 空间 的 不 连续 ， 形 成 大 量 的 碎片 ， 使 程序 效率 降低 ;而 对 栈 而 言 ， 则 不 存在 碎片 问题 。 
(3) 内 存 地 址 增长 的 方向 不 同 


堆 是 向 着 内 存 地 址 增加 的 方向 增长 的 ， 从 内 存 的 低地 址 向 高 地 址 方向 增长 ; 而 栈 的 增长 方向 与 之 相反 ， 是 向 着 内 存 地 址 减 小 的 方向 增长 ， 由 内 存 的 高 地 址 向 低地 址 方向 增长 。 


[ 


现在 ， 假 设 一 个 程序 的 函数 调用 顺序 为 : 主 函数 main 调 用 函数 func1， 函 数 func1 调 用 函数 func2。 当 这 个 程序 被 操作 系统 调 入 内 存 运 行 时 ， 其 对 应 的 进程 在 内 存 中 的 映射 结果 如 


6-13 所 示 。 


本 

| env strings ( 环境 变量 字符 吊 ) 

TS NN 

| argv strings ( 命令 行 字符 出 ) WS 
全 Y 人 人 > 
| env pointers ( 环 过 变量 量 指针 ) 贡 作 wm 


nh, nati he sa j 参 数 保护 自 
| argv 0 (命令 人 3 赔 


| SD ed en nd nae a 

| funcl 函数 的 栈 帧 ek 
TT 人 长 JLlAaCK 
| fnc2 困 级 的 栈 由 
人 

| ( 2 ) 


| re 没 ( .data ) 


6-13 ”示例 程序 在 内 存 中 的 映射 


由 此 可 见 ， 进 程 的 栈 是 由 多 个 栈 帧 构成 的 ， 其 中 每 个 栈 帧 都 对 应 一 个 函数 调用 。 当 函数 调用 发 生 时 ， 新 的 栈 帧 被 压 入 栈 ; 当 函 数 返 回 时 ， 相 应 的 栈 帧 从 栈 中 弹出 。 尽 管 栈 帧 结构 的 引入 为 在 高 级 语言 
实现 函数 或 过 程 这 样 的 概念 提供 了 直接 的 硬件 支持 ， 但 是 由 于 需要 将 函数 返回 地 址 这 样 的 重要 数据 保存 在 程序 员 可 见 的 堆栈 中 ， 因 此 也 给 系统 安全 带 来 了 极 大 的 隐患 。 当 程序 写 入 超过 缓冲 区 的 边界 时 ， 就 
会 产生 所 谓 的 “缓冲 区 溢出 ”。 发 生 缓 冲 区 溢出 时 ， 就 会 覆盖 下 一 个 相 邻 的 内 存 块 ， 导 致 程序 发 生 一 些 不 可 预料 的 结果 : 也 许 程序 可 以 继续 ， 也 许 程序 的 执行 出 现 奇怪 现象 ， 也 许 程序 完全 失败 或 者 崩溃 
等 。 


对 于 缓冲 区 溢出 ， 一 般 可 以 分 为 4 种 类 型 ， 即 栈 溢出 、 堆 溢出 、BSS 溢 出 与 格式 化 串 溢出 。 其 中 ， 栈 溢出 是 最 简单 ， 也 是 最 为 常见 的 一 种 溢出 方式 ， 下 面 我 们 就 以 栈 溢出 为 例 来 阐述 缓冲 区 溢出 的 原理 。 


我 们 知道 ， 栈 是 一 种 基本 的 数据 结构 ， 具 有 后 入 先 出 (Last In First Out，LIFO) 的 特性 。 在 x86 平 台 上 ， 调 用 函数 时 实际 参数 、 返 回 地 址 与 局 部 变量 都 位 于 栈 上 ， 栈 是 自 高 向 低 增长 (先入 栈 的 地 址 较 
高 ) ， 栈 指针 寄存 器 ESP 始 终 指向 栈 顶 元 素 。 


当 程 序 中 发 生 函 数 调 用 时 ， 计 算 机 做 如 下 操作 : 首先 把 指令 寄存 器 EIP ( 它 指向 当前 CPU 将 要 运行 的 下 一 条 指令 的 地 址 ) 中 的 内 容 压 入 栈 ， 作 为 程序 的 返回 地 址 (下 文中 用 RET 表 示 ) ; 之 后 放 入 栈 的 是 
基 址 寄存 器 EBP， 它 指向 当前 函数 栈 帧 的 底部 ; 然后 把 当前 的 栈 指针 ESP 复 制 到 EBP， 作 为 新 的 基地 址 ; 最 后 为 本 地 变量 的 动态 存储 分 配 留 出 一 定 空间 ， 并 把 ESP 减 去 适当 的 数值 。 


来 看 下 面 一 段 示 例 代 码 ， 该 示例 代码 演示 了 程序 在 执行 过 程 中 对 栈 的 操作 和 溢出 的 产生 过 程 。 


char c[]="AAAAAAAAAAAAAAAA"; 
int main (void) 
{ 
char arr[8]; 
/* 执 行 复制 ， 如 果 c 长 度 超过 8， 则 出 现 缓冲 区 溢出 */ 
strcpy (arr, cC) ) 
for (int i=0; i<8&&arr[i]; i++) 
{ 
printf (™\\Oxsx", arr[il]) ; 


i 
printf ("Vn") 3 
return 0; 


上 面 的 示例 代码 定义 了 一 个 8 字 节 的 缓冲 区 arr[8]， 然 后 使 用 函数 strcpy 来 将 数组 c 的 内 容 复 制 到 该 缓冲 区 中 。 由 于 数组 c 中 的 数据 长 度 超 过 了 8 字 节 ， 数 组 arr 容 纳 不 下 ， 只 好 向 栈 的 底部 方向 继续 写 
入 “A”。 因 此 ， 数 组 c 中 的 数据 依次 覆盖 了 EBP 和 返回 地 址 RET (两 个 都 是 32 位 的 ， 占 用 4 字 节 ) ， 使 得 strcpy 函 数 返 回 后 的 EIP 指 向 0x41414141 (0x41414141 也 就 是 “AAAA” 的 ASCIl 码 ) 。 


很 显然 ， 地 址 0x41414141 是 非法 的 ，CPU 会 试图 执行 0x41414141 处 的 指令 ， 结 果 出 现 难以 预料 的 后 果 ， 所 以 程序 会 出 现 异 常 而 退出 ， 如 图 6-14 与 图 6-15 所 示 。 


cc “C:\Test\Debug\Test. exe” 
Gx41\gx41 Gx41 Gx41\@x41 Gx41 0Gx41\@x41 


Tesi. exe 


Test. exe 仙 到 问题 天 要 关 财 。 我 们 对 此 引起 的 不便 表示 抱 
粕 。 


如 果 您 正 处 于 进程 当中 ， 信 息 有 可 能 丢失 。 


语 将 此 问题 报 肖 给 Mi er osoft to 
我 们 


已 经 创建 了 一 个 错误 报告 ， 您 可 以 将 它 发 送 给 我 们 。 我 们 将 
基 报 二 的 入 起 的 和 生生 的 


要 查看 这 个 错误 报告 包含 的 数据 ， 卉 车 市 此 处 。. 


调试 下 ) | 发 送 错误 报告 G) | 不 发 送 锯 ) | 


图 6-14 ” 栈 溢出 示例 运行 结果 (1) 


点 击 图 6-14 中 的 “请 单 击 此 处 ”链接 ， 可 以 查看 更 加 详细 的 错误 报告 ， 如 图 6-15 所 示 。 


Test. exe 


错误 签名 
Appllame; test, exe AppYer: 0D.0.0.0 NodName: unlknown 
Wodyer: 0.0.0.0 Offset: 41414141 


报告 详细 信息 


这 个 错误 报告 包括 : 问题 出 现时 Test. exe 的 状态 信息 ; 正在 使 用 的 掀 作 系统 版 本 及 计算 机 


硬件 ; 您 的 数字 Product ID， 该 标识 号 可 用 于 雇 别 您 的 评 可 证 ; 以 及 您 的 计算 机 的 
Internet 协议 CP) 地 址 。 


基 。 旨 生 可 时 村 区 户 信 息 、 因 来 四 打 和 天 人 的 大， 过 家 信息 人 呈 半 和 


的 身份 ， 但 如 果 身 份 已 经 显示 ， 则 人 不 和 信息 。 
信 


我 们 所 收集 的 数据 将 只 用 于 解决 问题 。 如 果 有 其 他 信息 可 用 ,在 您 报告 该 问题 时 ， 我 们 会 此 
报 : 不 交 这 中 二 这 据 撞 斤 将 使 用 安全 的 数 闫 库 注 接 发 送 ， 该 数据 库 只 供 有 限 人 员 访 问 ， 和 而 且 您 的 


要 查看 关于 错误 报告 的 技术 信息 ， 请 单 击 此 处 。 
要 查看 web 上 的 数据 收集 策略 ， 请 单 击 此 处 。 


图 6-15” 栈 溢出 示例 运行 结果 (2) 


在 上 面 的 示例 代码 中 ， 程 序 把 函数 返回 后 的 ElP 修 改 成 0x41414141， 这 是 因为 数组 c 中 的 数据 “AAAA” 将 返回 地 址 覆盖 了 的 结果 。 其 中 ，“A” 对 应 的 AsClI 码 的 十 六 进 制 表示 是 41， 因 
此 ，“AAAA” 就 是 0x41414141。 为 了 验证 这 个 事实 ， 我 们 现在 继续 将 数组 c 中 的 最 后 4 个 元 素 (覆盖 返回 地 址 的 部 分 ) 改 成 “ABCD” ， 示 例 代码 如 下 所 示 : 


char c[]="AAAAAAAAAAAAABCD"; 


现在 继续 运行 上 面 的 示例 代码 ， 其 运行 结果 如 图 6-16 所 示 。 


“C:\Test\Debug\Test. exe” 
lax41 Gx41 Gx41 Gx41 \Gx41 NGx41 Gx41 


Test. exe 


Test. exe 刀 到 问题 需要 关闭 。 我 们 对 此 引起 的 不 便 表 示 掀 


错误 签名 
AppHame: test. exe Appyer: 0.0.0.0 
fiodyer: 0.0.0.0 Offset: 44434241 


报告 详细 信息 


我 们 ee 人 电子 邮件 人 何 形式 的 个 人 识别 和信 


报关 更 能久 全 类 竺 用户 信息 和 视 江 县 .这 不 全 息 合共 公关 后 询 汉人 
eR 


报告 不 会 用 寺 市 场 推广 。 


要 查看 关于 错误 报 洁 的 技术 信息 。 请 单 击 此 处 。 


中 


Internet 协议 (IP) 地 


要 查看 web 上 的 数据 收集 策略 ， 请 单 击 此 处 。 关闭 ©) | 面 阿 谣 


图 6-16” 栈 溢出 示例 运行 结果 (3) 


如 图 6-16 所 示 ， 这 时 EIP 被 修改 成 0x44434241， 对 应 的 是 “DCBA”， 与 覆盖 的 数据 是 相反 的 。 这 是 因为 在 Windows 32 系 统 中 由 低位 向 高 位 存储 一 个 4 字 节 的 双 字 (DWORD) 


， 但 作为 数值 表示 的 时 


候 ， 却 是 按照 高 位 字 节 向 低位 字 节 进行 解释 的 ， 所 以 ， 内 存 地 址 与 我 们 逻辑 上 使 用 的 “数值 数据 ”的 顺序 相反 。 如 果 这 时 候 能 够 把 EIP 修 改 指向 我 们 的 代码 ， 就 可 以 接管 程序 的 控制 权 ， 从 而 做 任何 事情 。 示 


例 代 码 如 下 所 示 : 


char shellcode[]= 
"\x41\x41\x41\x41" 
"\x41\x41\x41\x41" 
/* 复 盖 ebP*/ 
"\x41\x41\x41\x41" 
/* 履 盖 eip， jmp esp 地 址 7ffa4512*/ 
"\x12\x45\xfa\x7f" 
"\x55\x8b\xec\x33\xc0\x50\x50\x50\xc6\x45\xf4\x6d" 
"\xc6\x45\xf5\x73\xc6\x45\xf6\x76\xc6\x45\xf7\x63" 
"\xc6\x45\xf8\x72\xc6\x45\xf9\x74\xc6\x45\xfa\x2e" 
"\xc6\x45\xfb\x64\xc6\x45\xfc\x6c\xc6\x45\xfd\x6c" 
"\x8d\x45\xf4\x50\xb8" 
/* LoadLibrary 的 地 址 */ 
"\x77\xld\x80\x7c" 
"\xff\xd0" 
"\x55\x8b\xec\x33\xff\x57\x57\x57\xc6\x45\xf4\x73" 
"\xc6\x45\xf5\x74\xc6\x45\xf6\x61\xc6\x45\xf7\x72" 
"\xc6\x45\xf8\x74\xc6\x45\xf9\x20\xc6\x45\xfa\x63" 
"\xc6\x45\xfb\x6d\xc6\x45\xfc\x64\x8d\x7d\xf4\x57" 
"\xba" 
/*System 的 地 址 */ 
"™\xc7\x93\xbf\x77" 
"fem "ys 

int main () 

{ 
char arr[8]; 
strcpy (arr, shellcode) ; 
for (int i=0; i<8ggarr[i]; i++) 
{ 

printf ("\\Ox%x", arr[i]) ; 

} 
printf ("Yn") ; 
return 0; 


} 


在 上 面 示例 代码 中 ，shellcode 功 能 为 打开 一 个 cmd 窗 口 ， 运 行 结果 如 图 6-17 所 示 。 


NBxd41 x41 NGx41 NGx41 x41 NGx41 NIxd41、\0x41 
Press any key to continue 


oc “C:\Test\Debue\Test. exe”™ -lo|x| 
四 


Windows XP [版 本 5.1.2680] 
月 1985-2981 Microsoft Corp- 


图 6-17 栈 溢 出 示例 运行 结果 (4) 


这 里 还 需要 说 明 的 是 ， 在 Windows XP SP3 系 统 中 ，jmp esp 在 系统 核心 dll 中 的 地 址 为 7ffa4512， 这 个 地 址 在 其 他 系统 中 可 能 不 一 样 。 同 时 ，shellcode 中 LoadLibrary 和 system 函 数 的 地 址 也 可 能 
统 不 同 而 不 同 。 可 以 使 用 VC++ 6.0 自 带 的 工具 “Dependency Walker” 来 确定 自己 系统 上 这 两 个 函数 的 地 址 ， 有 兴趣 的 读者 可 以 参考 一 些 其 他 资料 自行 研究 ， 鉴 于 篇 幅 的 原因 ， 这 里 就 不 再 过 多 阐述 。 


站 
并 


建议 60: 区 别 指针 数组 和 数组 指针 


对 指针 数组 和 数组 指针 的 概念 ， 相 信 很 多 C 程 序 员 都 会 混淆 。 下 面 通过 两 个 简单 的 语句 来 分 析 一 下 二 者 之 间 的 区 别 ， 示 例 代码 如 下 所 示 : 


int *pl[5]; 
int (*p2) TS] 


首先 ， 对 于 语句 “int*p1[5]”， 因 为 “[ ”的 优先 级 要 比 “*” 要 高 ， 所 以 p1 先 与 “[ ”结合 ， 构 成 一 个 数组 的 定义 ， 数 组 名 为 pP1， 而 “int*” 修饰 的 是 数组 的 内 容 ， 即 数组 的 每 个 元 素 。 也 就 是 说 ， 该 
数组 包含 5 个 指向 int 类 型 数据 的 指针 ， 如 图 6-18 所 示 ， 因 此 ， 它 是 一 个 指针 数组 。 


其 次 ， 对 于 语句 “int (*p2) [5]”， ”() ”的 优先 级 比 “[ ”高 ，“*” 号 和 p2 构 成 一 个 指针 的 定义 ， 指 针 变量 名 为 p2， 而 int 修 饰 的 是 数组 的 内 容 ， 即 数组 的 每 个 元 素 。 也 就 是 说 ，p2 是 一 个 指针 ， 
它 指 向 一 个 包含 5 个 int 类 型 数据 的 数组 ， 如 图 6-19 所 示 。 很 显然 ， 它 是 一 个 数组 指针 ， 数 组 在 这 里 并 没有 名 字 ， 是 个 匿名 数组 。 


图 6-18 int*p1[5] 


数组 的 首 地 址 


图 6-19 int (*p2) [5] 


由 此 可 见 ， 对 指针 数组 来 说 ， 首 先 它 是 一 个 数组 ， 数 组 的 元 素 都 是 指针 ， 也 就 是 说 该 数组 存储 的 是 指针 ， 数 组 占 多 少 个 字 节 由 数组 本 身 决定 ;而 对 数组 指针 来 说 ， 首 先 它 是 一 个 指针 ， 它 指向 一 个 数 
也 就 是 说 它 是 指向 数组 的 指针 ， 在 32 位 系统 下 永远 占 4 字 节 ， 至 于 它 指向 的 数组 占 多 少 字 节 ， 这 个 不 能 够 确定 ， 要 看 具体 情况 。 


占 


了 解 指针 数组 和 数组 指针 二 者 之 间 的 区 别 之 后 ， 继 续 来 看 下 面 的 示例 代码 : 


了 [二 (人 2 3 
int (*pl) [5] = &arr; 

/* 下 面 是 错误 的 */ 

int (*p2) [5S] = arr; 


不 难看 出 ， 在 上 面 的 示例 代码 中 ，&arr 是 指 整个 数组 的 首 地 址 ， 而 arr 是 指数 组 首 元 素 的 首 地 址 ， 虽 然 所 表示 的 意义 不 同 ， 但 二 者 之 间 的 值 却 是 相同 的 。 那 么 问题 出 来 了 ， 既 然 值 是 相同 的 ， 为 什么 语 
句 “int (*p1) [5]=&arr” 是 正确 的 ， 而 语句 “int (*p2) [5]=arr” 却 在 有 些 编译 器 下 运行 时 会 提示 错误 信息 呢 (如 在 Microsoft Visual Studio 2010 中 提示 的 错误 信息 为 “a value of type"int*"cannot 


be used to initialize an entity of type"int (*) [5]”” )? 


其 实 原因 很 简单 ， 在 C 语 言 中 ， 赋 值 符号 “=” 号 两 边 的 数据 类 型 必须 是 相同 的 ， 如 果 不 同 ， 则 需要 显示 或 隐 式 类 型 转换 。 在 这 里 ，p1 和 p2 都 是 数组 指针 ， 指 向 的 是 整个 数组 。p1 这 个 定义 的 “=” 号 
两 边 的 数据 类 型 完全 一 致 ， 而 p2 这 个 定义 的 “=” 号 两 边 的 数据 类 型 就 不 一 致 了 (左边 的 类 型 是 指向 整个 数组 的 指针 ， 而 右边 的 数据 类 型 是 指向 单个 字符 的 指针 ) ， 因 此 会 提示 错误 信息 。 


建议 61: 深入 理解 数组 参数 


我 们 知道 ， 在 C 语 言 中 ， 所 有 非 数组 形式 的 数据 实 参 均 以 传 值 形式 (对 实 参 做 一 份 副本 并 传递 给 被 调用 的 函数 ， 函 数 不 能 修改 作为 实 参 的 实际 变量 的 值 ， 而 只 能 修改 传递 给 它 的 那 份 副本 ) 调用 的 。 然 
而 ， 对 数组 而 言 ， 如 果 要 复制 整个 数组 ， 无 论 在 空间 上 还 是 在 时 间 上 ， 其 开销 都 是 非常 大 的 。 更 重要 的 是 ， 在 绝 大 部 分 情况 下 ， 其 实 并 不 需要 整个 数组 的 副本 。 因 此 ， 为 了 节省 时 间 和 空间 ， 提 高 程序 运行 
的 效率 ， 当 一 维 数组 作为 函数 参数 的 时 候 ， 编 译 器 总 是 把 它 解析 成 一 个 指向 其 首 元 素 首 地 址 的 指针 。 


因此 ， 我 们 完全 可 以 将 一 维 数组 的 函数 参数 写成 指针 形式 ， 如 下 面 的 代码 所 示 : 


void f (char *p) 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/. .http://waw.hzcourse.com/resource/readBook?path=/openresources/t 
} 


当然 ， 也 可 以 写成 数组 的 形式 ， 如 下 面 的 代码 所 示 : 


void f (char arr[5]) 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/. .http://waw.hzcourse.com/resource/readBook?path=/openresources/t 
} 


但 上 面 的 这 种 写法 存在 着 一 个 问题 : 令 人 误会 成 只 能 传递 一 个 5 个 元 素 的 数组 。 而 实际 上 传递 的 数组 大 小 与 函数 形 参 指定 的 数组 大 小 是 没有 关系 的 。 既 然 如 此 ， 或 许 下 面 的 这 种 写法 更 加 合适 且 便 于 理 
解 : 


void f (char arr[ ]) 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15541/OEBPSVText/. .http://waw.hzcourse.com/resource/readBook?path=/openresources/t 
} 


既然 一 维 数组 作为 函数 参数 的 时 候 ， 编 译 器 把 它 解析 成 一 个 指向 其 首 元 素 首 地 址 的 指针 。 同 理 ， 函 数 的 返回 值 也 不 能 是 一 个 数组 ， 而 只 能 是 指针 。 由 此 可 见 ， 函 数 本 身 是 没有 类 型 的 ， 只 有 函数 的 返回 
值 才 有 类 型 。 因 此 ， 日 常 所 见 的 “ 某 某 类 型 的 函数 ”的 这 种 说 法 是 有 问题 的 ， 是 不 准确 的 。 


阐述 了 一 维 数组 参数 ， 下 面 继续 看 二 维 数 组 参数 ， 如 下 面 的 代码 所 示 : 


void f (char arr[5][5]) 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPSVText/... 
} 


按照 上 面 的 分 析 原 理 ， 完 全 可 以 把 数组 arr[5][5] 理 解 为 一 个 一 维 数组 arr[5]。 其 中 ， 该 一 维 数组 中 的 每 个 元 素 都 是 一 个 含有 5 个 char 类 型 数据 的 数组 。 根 据 “ 当 一 维 数组 作为 函数 参数 的 时 候 ， 编 译 器 总 
是 把 它 解析 成 一 个 指向 其 首 元 素 首 地 址 的 指针 ”的 理论 ， 可 以 把 这 个 函数 的 声明 改写 如 下 形式 : 


void f (char (*p) [5]) 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 


这 里 值得 注意 的 是 ，“char (*p) [5]” 中 的 括号 绝对 不 能 省 略 ， 这 样 才能 保证 编译 器 把 p 解 析 为 一 个 指向 包含 5 个 char 类 型 数据 元 素 的 数组 ， 即 一 维 数组 arr[5] 的 元 素 。 


同样 ， 如 果 不 采用 上 面 的 指针 形式 ， 一 维 数组 “[] ”号 内 的 数字 完全 可 以 省 略 ， 如 下 面 的 代码 所 示 : 


void f (char arr[] [5]) 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15541/OEBPSVText/... 


这 时 候 ， 或 许 有 人 会 问 ， 为 什么 不 连 第 二 维 的 维 数 也 省 略 呢 ? 如 下 面 的 代码 所 示 : 


void f (char arr[][]) 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 
} 


很 显然 ， 上 面 的 这 种 写法 是 错误 的 。 因 为 从 实 参 传递 来 的 是 数组 的 起 始 地 址 ， 在 内 存 中 按 数 组 排列 规则 存放 ( 按 行 存放 ) ， 而 并 不 区 分 行 和 列 。 因 此 ， 如 果 在 形 参 中 不 说 明 列 数 ， 则 程序 无 法 决定 数组 
应 为 多 少 行 多 少 列 。 同 样 ， 也 不 能 只 指定 一 维 而 不 指定 第 二 维 ， 下 面 写法 是 错误 的 : 


void f (char arr[5] []) 
{ 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 
i 


由 此 可 见 ，“ 当 一 维 数组 作为 函数 参数 的 时 候 ， 编 译 器 总 是 把 它 解析 成 一 个 指向 其 首 元 素 首 地 址 的 指针 ”这 条 规则 并 不 是 递归 的 。 也 就 是 说 ， 只 有 一 维 数组 才 是 如 此 ， 对 于 二 维和 多 维 数组 ， 在 将 第 一 
维 改写 为 指向 数组 首 元 素 首 地 址 的 指针 之 后 ， 后 面 的 维 再 也 不 可 改写 。 同 时 ， 除 了 第 一 维 的 大 小 可 以 省 略 外 ， 其 他 维 (如 第 二 维 或 者 更 高 维 ) 的 大 小 不 能 够 省 略 。 示 例 代 码 如 下 所 示 : 


void f (char arr[5] [5] [5]) 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 


} 
/< 等 价 于 和 如下: */ 
void f (char (*p) [5] [5]) 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPSVText/... 


} 

1 从 TT/ 

void f (char arr[] [5] [5]) 
{ 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 
i 


下 面 的 示例 代码 演示 了 常见 的 3 种 二 维 数组 参数 的 定义 与 传递 形式 : 


void fa (int arr[][5]， int n, int m) 
{ 

int i=0; 

int j=0; 

for (i = 0; 1 <n; i++r) 


for (j = 0; j <m; j++) 
printf ("%d ", arr[i][j]); 


} 
printf (ten) ; 


void fb (int (*p) [5], int n, int m) 


for (j = 0; j <m; j++) 
peintf ("sd 和 [人 六 


} 
Printt ("Na") 3s 
} 


void fc (int *p, int n, int m) 
{ 
int i 
int 本 
for (i 


{ 


吝 交 于 们 

for (j = 0; j <m; j++) 

{ 

printf (ad ", * (p+ ixm+j)); 


} 
Beinte (rm Ys 
} 
bE 
int main (void) 
{ 
int arr[5][5] = {{1, 2}, {3, 4, 5}, {6}, {7}, {0, 8}}; 
fa (arr, 5, 5); 
fy (arr, 5 3 
fe (sarrId] [Ol SS 对 3 
return 0; 


第 7 章 ”结构 、 位 域 和 枚 举 


在 C 语 言 中 ， 除 提供 基本 数据 类 型 外 ， 还 允许 使 用 结构 体 、 位 域 、 联 合 、 枚 举 与 typedef 关 键 字 来 定义 自己 的 新 类 型 。 尤 
念 的 雏形 。 因 此 ， 本 章 将 重点 讨论 结构 体 的 使 用 要 点 与 注意 事项 。 


是 结构 体 ， 它 不 仅 可 以 用 来 表示 任何 实体 ， 同 时 也 算是 面向 对 象 语言 中 类 的 概 


建议 62: 结构 体 的 设计 要 遵循 简单 、 单 一 原则 


简单 来 阅 ， 结 构 体 是 一 种 构造 类 型 ， 它 由 若 


结构 体 类 型 的 定义 只 是 指出 该 结构 体 的 组 成 情况 ， 系 统 并 不 会 为 它 分 配 实际 的 存储 和 


成 员 组 成 。 其 中 ， 每 一 个 成 员 可 以 是 一 个 基本 数据 类 型 或 者 是 一 个 构造 类 型 。 


元 。 应 该 在 定义 结构 体 类 型 以 后 再 定义 该 结构 体 类 型 的 变量 (简称 结构 体 变量 ) ， 以 便 在 结构 体 变量 中 存放 具体 的 


数据 。 在 一 般 情况 下 ， 结 构 体 变量 的 定义 方式 有 3 种 形式 。 


1) 先 定义 结构 体 类 型 ， 再 定义 结构 体 变量 ， 示 例 代 码 如 下 : 


struct Date 

{ 
int year; 
int month; 
int day; 


}; 
struct Date today; 


2) 在 定义 结构 体 类 型 的 同时 定义 结构 体 变 量 ， 示 例 代码 如 下 : 


struct Date 

{ 
int year; 
int month; 
int day; 

}today; 


3) 直接 定义 结构 体 变量 ， 示 例 代码 如 下 : 


struct 

{ 
int year; 
int month; 
int day; 

} today; 


尽管 如 此 ， 但 在 实际 编程 环境 中 ， 一 般 会 使 


typedef 关 键 字 为 结构 体 类 型 定义 一 个 别名 。 比 如 ， 对 一 个 简单 的 链表 结构 可 以 进行 如 下 定义 : 


typedef struct Node{ 
/* 数 据 指针 */ 
void *data; 
/* 数 据 长 度 */ 
int dataLength; 
/* 指 向 下 一 个 节点 */ 
struct node *next; 

}List; 


这 样 ， 以 后 就 可 以 用 List 代 蔡 结 构 体 类 型 名 称 来 定义 结构 体 变量 了 ， 例 如 : 


List ln; /* 它 等 价 于 : struct Node ln; */ 


建议 62-1: 尽量 使 结构 体 的 功能 单一 


结构 体 的 功能 要 单一 ， 是 针对 一 种 事务 的 抽 
关系 或 关系 很 弱 的 不 同事 务 的 元 素 放 到 同一 结构 


体 中 。 


届 结 构 反 而 容易 引起 误解 和 操作 困 


从 某 种 意义 上 讲 ， 面 面 俱 到 的 、 灵 活 的 数 


象 。 在 设计 结构 体 时 应 力争 使 结构 体 只 代表 一 种 现实 


难 。 我 们 在 设计 结构 体 时 ， 同 样 需 要 考虑 其 功能 


务 的 抽象 ， 而 不 是 同时 代表 多 种 。 结 构 体 中 的 各 元 素 应 代表 同一 事务 的 不 同 侧面 ， 而 不 应 把 描述 没有 


单一 原则 ， 而 不 应 设计 面面俱到 的 、 非 常 灵活 的 结构 体 。 当 然 ， 有 句 话说 


的 设计 ”。 因 此 ,我 们 在 遵循 功能 单一 / 


得 好 ，“ 不 满足 需求 的 程序 设计 ， 基 本 就 是 无 


示例 代码 如 下 : 


原则 的 同时 ， 也 要 考虑 到 程序 的 需求 ， 避 免 不 必 要 的 复杂 化 。 


typedef struct Student Stru 
{ 


/* 学 生 编 号 */ 

unsigned char id[10]; 

/* 学 生 名 称 */ 

unsigned char name [10]; 

/* 学 生性 别 */ 

unsigned char sex; 

/* 学 生 联系 地 址 */ 

unsigned char addr[100]; 

/* 教 师 名 称 */ 

unsigned char teacher name[10]; 

/* 教 师 性 别 */ 

unsigned char teacher sex; 

/* 教 师 联系 电话 */ 

unsigned char teacher tel[13]; 

/* 教 师 联系 地 址 */ 

unsigned char teacher aqqr[100]; 
} Student; 


很 简单 ， 上 面 的 结构 体 就 设计 得 不 太 清晰 与 合理 ， 同 一 个 结构 中 包含 了 两 种 


如 下 面 的 代码 所 示 : 


务 的 抽象 (学 生 和 教师 ) 。 


将 这 两 种 事务 (学 生 和 教师 ) 进行 分 离 ， 设 计 成 两 个 结构 体 ， 这 样 更 合理 些 ， 


此 ， 这 里 需 


/* 教 师 */ 
typedef struct Teacher Stru 
{ 
/* 教 师 编 号 */ 
unsigned char id[10]; 
/* 教 师 名 称 */ 
unsigned char name[10]; 
/* 教 师 性 别 */ 
unsigned char sex; 
/* 教 师 联系 电话 */ 
unsigned char tel[13]; 
/* 教 师 联系 地 址 */ 
unsigned char addr[100]; 
} Teacher; 
/* 学 生 */ 


typedef struct Student Stru 
{ 

/* 学 生 编 号 */ 

unsigned char id[10]; 

/* 学 生 名 称 */ 

unsigned char name[10]; 

/* 学 生性 别 */ 

unsigned char sex; 

/* 学 生 联 系 地 址 */ 

unsigned char addr[100]; 

/* 教 师 编 号 */ 

unsigned char teacher id[10]; 
} Student; 


建议 62-2: 尽量 减 小 结构 体 间 关 系 的 复杂 度 


上 面 已 经 阐述 过 ，“ 结 构 体 的 功能 要 单一 ， 是 针对 一 种 事务 的 抽象 ”。 因 此 ， 不 同 结 体 构 间 的 关系 不 要 过 于 复杂 。 若 两 个 结构 间 关 系 比 较 复杂 、 密 切 (或 者 描述 的 是 同一 个 事务 ) ， 那 么 应 合 为 一 个 结 


示例 代码 如 下 : 


typedef struct Employee One Stru 
{ 

/* 员 工 编 号 */ 

unsigned char id[10]; 

/* 员 工 名 称 */ 

unsigned char name[10]; 

/+ 联系 电话 */ 

unsigned char tel[13]; 

/* 联 系 地 址 */ 

unsigned char addr[100]; 
} Employee One; 
typedef struct Employee Two Stru 
{ 

/* 员 工 编 号 */ 

unsigned char id[10]; 

/* 员 工 名 称 */ 

unsigned char name[10]; 

/* 性 别 */ 

unsigned char sex; 

/* 年 龄 */ 

unsigned char age; 
} Employee_Two; 


很 显然 ， 上 面 两 个 结构 描述 的 是 同一 事务 ， 并 且 关 系 非常 复杂 且 密 切 ， 因 此 不 如 合成 一 个 结构 。 如 下 面 的 代码 所 示 : 


typedef struct Employee Stru 
{ 

/员工 编号 */ 

unsigned char id[10]; 

/* 员 工 名 称 */ 

unsigned char name[10]; 

/* 性 别 */ 

unsigned char sex; 

/+ 年 龄 k/ 

unsigned char age; 

/* 联 系 电话 */ 

unsigned char tel[13]; 

/* 联 系 地 址 */ 

unsigned char addr[100]; 
} Employee; 


建议 62-3: 尽量 使 结构 体 中 元 素 的 个 数 适中 


如 果 结构 体 中 元 素 个 数 过 多 ， 可 考虑 依据 某 种 原则 把 元 素 组 成 不 同 的 子 结构 体 ， 以 减少 原 结构 体 中 元 素 的 个 数 ， 从 而 增加 结构 体 的 可 理解 性 、 可 操作 性 和 可 维护 性 。 


如 下 面 的 示例 代码 所 示 : 


typedef struct Employee Stru 
{ 
/* 员 工 编 号 */ 
unsigned char id[10]; 
/* 员 工 名 称 */ 
unsigned char name[10]; 
/* 曾 用 名 */ 
unsigned char formername [10]; 
者 
unsigned char englishname[10]; 
/* 性 别 */ 
unsigned char sex; 
/* 年 龄 */ 
unsigned char age; 
/* 联 系 电话 */ 
unsigned char telephone[13]; 
/* 联 系 地 址 */ 
unsigned char address[100]; 
/* 电 子 邮件 */ 
unsigned char email[30]; 
/* 家 庭 电话 */ 
unsigned char hometelephone[13]; 
/* 家 庭 地 址 */ 
unsigned char homeaddress[100]; 
} Employee; 


在 上 面 的 代码 中 ， 假 如 我 们 这 里 认为 Employee_Stru 结 构 体 中 的 元 素 过 多 (当然 ， 实 际 编程 环境 中 这 个 数量 并 不 算 多 ) ， 那 么 可 以 作 如 下 归 类 划分 : 


/* 员 工 基础 信息 结构 体 */ 
typedef struct Employee Base Stru 
{ 
/* 员 工 编 号 */ 
unsigned char id[10]; 
/* 员 工 名 称 */ 
unsigned char name[10]; 
/* 曾 用 名 */ 
unsigned char formername [10]; 
/* 英 文 名 */ 
unsigned char englishname[10]; 
/* 性 别 */ 
unsigned char sex; 


/* 年 龄 */ 


unsigned char age; 
} FEmployee _ Base; 
/* 员 工 联系 方式 信息 结构 体 */ 
typedef struct Employee Contact Stru 


{ 
/* 联 系 电话 */ 
unsigned char telephone[13]; 
/* 联 系 地 址 */ 
unsigned char address[100]; 
/* 电 子 邮 件 */ 
unsigned char email[30]; 
/* 家 庭 电 话 */ 
unsigned char hometelephone[13]; 
/* 家 庭 地 址 */ 
unsigned char homeaddress[100]; 
} Employee Contact; 
/* 员 工 信 息 结构 体 */ 
typedef struct Employee Stru 
{ 
Employee_Base employee base; 
Employee_Contact employee contact; 
} Employee; 


虽然 这 样 有 违背 我 们 前 面 的 建议 ， 增 加 了 结构 体 间 的 复杂 性 和 密切 性 ， 但 总 体 来 说 还 是 有 可 取 之 处 的 。 当 然 ， 这 主要 还 是 看 程序 的 需求 。 


建议 62-4: 合理 划分 与 改进 结构 体 以 提高 空间 效率 


有 时 候 ， 我 们 可 以 通过 对 结构 体 的 划分 、 组 织 的 改进 ， 以 及 对 程序 算法 的 优化 来 提高 空间 效率 ， 这 也 是 解决 软件 空间 效率 的 根本 办 法 。 


如 下 面 的 示例 代码 所 示 : 


typedef struct StudentScore Stru 


/+ 编号 */ 
unsigned char id[10]; 
/* 姓 名 */ 
unsigned char name[10]; 
/+ 年 龄 k/ 
unsigned char age; 
/* 性 别 */ 
unsigned char sex; 
/* 班 级 编号 */ 
unsigned char classid; 
/* 课 程 */ 
unsigned char course; 
/* 分 数 */ 
float score; 
} StudentScore; 


很 显然 ， 上 面 记录 学 生 学 习 成 绩 的 结构 体 设 计 得 不 合理 ， 每 位 学 生 都 有 多 门 学 习 成 绩 ， 这 样 学 生 的 基础 信息 将 重复 多 次 ， 占 用 较 大 的 空间 。 


与 此 同时 ， 学 生 和 成 绩 也 是 两 种 不 同 的 事务 ， 而 这 里 将 其 放 在 同一 个 结构 体内 也 违背 了 前 面 所 介绍 的 功能 单一 原则 。 因 此 ， 应 该 分 成 两 个 结构 体 进行 设计 (学 生 和 成 绩 ) ， 这 样 不 仅 容易 理解 ， 而 且 减 
少 学 生 基础 信息 的 重复 ， 总 的 存储 空间 将 变 小 ， 操 作 也 变 得 更 方便 。 如 下 面 的 代码 所 示 : 


出 


/* 学 生 结 构 体 */ 
typedef struct Student Stru 
{ 
/* 编 号 */ 
unsigned char id[10]; 
/* 姓 名 */ 
unsigned char name[10]; 
/* 年 龄 */ 
unsigned char age; 
/* 性 别 */ 
unsigned char sex; 
/* 班 级 编号 */ 
unsigned char classid; 
} Student; 
/* 学 生成 绩 结 构 体 */ 
typedef struct StudentScore Stru 
{ 
/* 编 号 */ 
unsigned char id[10]; 
/* 课 程 */ 
unsigned char course; 
/* 分 数 */ 
float score; 
} StudentScore; 


建议 63: 合理 利用 结构 体内 存 对 齐 原理 来 提高 程序 效率 


在 讲解 结构 体内 存 对 齐 之 前 ， 先 来 看 看 如 下 两 个 结构 体 : 


typedef struct 
{ 
int a; 
char b; 
short c; 
}a; 
typedef struct 
{ 


char b; 

int. as 

short c; 
}B; 


从 上 面 两 个 结构 体 (A 与 B) 中 可 以 看 出 ， 两 个 结构 体 的 成 员 除了 顺序 不 一 样 之 外 ， 个 数 和 类 型 都 完全 一 样 。 这 里 以 32 位 系统 为 例 ， 两 个 结构 体 都 包含 了 一 个 int 类 型 的 成 员 变 量 (长 度 为 4 个 字 节 ) 、 一 
个 char 类 型 的 成 员 变 量 (长 度 为 1 个 字 节 ) ， 以 及 一 个 short 类 型 的 成 员 变 量 (长 度 为 2 个 字 节 ) 。 那 么 这 两 个 结构 的 大 小 究竟 如 何 呢 ? 


如 果 不 了 解 结构 体 的 内 存 对 齐 原 理 ， 你 一 定 认为 它们 应 该 是 相等 的 ， 大 小 都 为 7 字 节 。 但 是 ， 实 际 运行 结果 却 并 非 如 此 。 在 Red Hat Enterprise Linux 6 (i386) 的 GCC 4.4.4 中 运行 结果 如 下 所 示 : 


sizeof (A) 的 值 为 : 8 
sizeof (B) 的 值 为 : 12 


这 就 是 所 谓 的 内 存 对 齐 ， 而 这 个 k 被 称 为 该 数据 类 型 的 对 齐 模 数 (alignment modulus) 。 


是 : 如 果 不 按照 适合 
位 对 齐 ， 如 果 变 量 刚好 跨 4 位 编码 ， 这 样 就 需要 CPU 


之 所 以 出 现 上 面 的 结果 ， 是 因为 编译 器 要 对 数据 成 员 在 空间 上 进行 对 齐 。 实 际 上 ， 许 多 计算 机 系统 对 基本 类 型 数据 在 内 存 中 存放 的 位 置 有 限制 ， 它 们 会 要 求 这 些 数据 的 起 始 地 址 的 值 是 某 个 数 k 的 倍数， 


内 存 对 齐 作为 一 科 


强制 要 求 ， 一 方面 简化 了 处 理 器 与 内 存 之 间 传 输 系统 的 设计 ， 另 一 方面 可 以 提升 读 取 数 拉 
据 只 能 从 某 些 特定 地 址 开始 存 取 。 比 如 ， 有 些 架 构 的 CPU 在 访问 一 个 没有 进行 对 齐 的 变量 的 时 候 会 发 4 
平台 要 求 对 数据 存放 进行 对 齐 ， 会 在 存 取 效 率 上 带 来 损失 。 比 如 在 32 位 CPU 上 ， 一 般 要 求 变量 地 址 都 是 基于 4 位 的 ， 这 样 可 以 保证 | 


存 的 情况 下 ， 这 个 策略 是 相当 成 功 的 。 


Intel 的 IA32 架 构 的 处 理 器 则 不 管 数据 是 否 对 齐 都 能 正确 工作 ， 但 是 如 果 想 提升 性 能 ， 


两 次 读 写 周期 。 很 显然 ， 这 样 的 效率 


然 低 下 。 由 此 也 可 


应 该 注意 内 存 对 齐 方式 。ANSI C 标 准 并 没有 规定 相 邻 声明 的 变 


届 的 速度 。 各 个 硬件 平台 在 对 存储 空间 的 处 理 上 有 很 大 的 不 同 。 
错误 ， 那 么 在 这 种 架构 下 编程 必须 保证 字 节 对 齐 。 其 他 平台 可 能 没 


一 些 平台 对 某 些 特定 类 型 的 数 
这 种 情况 ， 但 是 最 常见 的 情况 


CPU 


一 次 的 读 写 周期 就 可 以 读 取 变量 。 如 果 不 按 4 


以 简单 看 出 ， 内 存 字 节 对 齐 是 一 种 典型 的 “以 空 


间 换 时 间 的 策略 ” ， 在 现代 计算 机 拥有 较 大 内 


在 内 存 中 一 定 要 相 邻 。 为 了 程序 的 高 效 性 ， 内 存 对 


齐 问题 由 编译 器 自行 灵活 处 理 ， 这 样 会 导致 相 邻 的 变量 之 间 有 一 些 填充 字 节 。 对 于 基本 数据 类 型 (如 int、char 等 ) ， 它 们 占用 的 内 存 空间 在 一 个 确定 硬件 系统 下 有 确定 的 值 。ANSI C 规 定 一 种 结构 类 型 的 


大 小 是 它 所 有 字段 的 大 小 及 字段 之 间或 字段 尾部 的 填充 区 大 小 之 和 。 


(填充 区 就 是 为 了 使 结构 体 字段 满足 内 存 对 齐 要 求 而 额外 分 配给 结构 体 的 空间 ) 。 


此 ， 


这 里 的 结构 体 对 齐 包括 两 方面 的 含义 : 结构 体 


总 长 度 与 结构 体内 各 数据 成 员 的 内 存 对 齐 ( 即 该 数据 成 员 相 对 结构 体 的 起 始 位 置 ) 。 结 构 体 大 小 的 计算 方法 和 步骤 如 下 : 


1) 将 结构 体内 所 有 数据 成 员 的 长 度 值 相 加 ， 记 为 Sum_a。 


2) 将 各 数据 成 员 内 存 对 齐 ， 按 各 自 对齐 模 数 而 填充 的 字 节 数 累 加 到 和 sum_a 上 ， 记 为 sum_b。 对 齐 模 数 是 #pragma pack 指 定 的 数值 及 该 数据 成 员 


对 齐 模式 的 整数 倍 。 


如 果 程序 没有 明确 指出 ， 就 需要 知道 编译 器 默认 的 对 齐 模 数 值 。 


的 地 址 总 是 8 的 倍数 ， 而 char 类 型 数据 (1 字 节 ) 则 可 以 从 任何 一 个 地 址 
据 类 型 (比如 int、long、double) 都 以 4 为 对 齐 模 数 。 表 7-1 


身长 度 中 数值 较 小 者 。 该 数据 相对 起 始 位 置 应 该 是 


3) 将 和 sum_b 向 结构 体 模 数 对 齐 ， 该 模 数 是 #pragma pack 指 定 的 数值 和 结构 体内 部 最 大 的 基本 数据 类 型 成 员 长 度 中 数值 较 小 者 ， 结 构 体 的 长 度 应 该 是 该 模 数 的 整数 倍 。 


根据 上 面 的 结构 体 大 小 的 计算 方法 和 步骤 可 以 看 出 ， 我 们 要 做 的 第 一 件 寻 


其 中 ，windows ”32 位 平台 下 的 微软 VC 编译 器 在 默认 情况 下 采 


默认 对 齐 模 数 。 


始 。Linux 下 的 GCC 则 


如 下 对 齐 规则 : 任何 基本 数据 类 型 T 的 对 齐 模 数 就 是 T 的 大 小 ， 即 sizeof (T) 。 比 如 ， 对 于 double 类 型 (8 字 节 ) ， 就 要 求 该 类 型 数据 
的 是 另外 一 套 规则 : 任何 2 字 节 大 小 的 数据 类 型 (比如 short) 的 对 齐 模 数 是 2， 而 其 他 所 有 超过 2 字 节 的 数 
展示 了 Windows 7 (32 位 ) /Microsoft Visual Studio 2010 (VC++) 与 Red Hat Enterprise Linux 6 (i386) /GCC 中 基本 数据 类 型 的 长 度 和 


情 就 是 明确 各 个 数据 成 员 的 对 齐 模 数 ， 对 齐 模 数 和 数据 成 员 本 身 的 长 度 及 pragma pack 编 译 参数 有 关 ， 其 值 是 两 者 中 最 小 的 。 


表 7-1 Windows7 (32 位 ) /Microsoft Visual Studio 2010 (VC++) 与 Red Hat Enterprise Linux 6 (i386) /GCC 中 基本 数据 类 型 的 长 度 和 默认 对 齐 模 数 


操作 系统 


double 


long double 


Windows 


Linux 


除 此 之 外 ， 我 们 还 需要 了 解 一 下 offsetof 宏 。 
。 下 面 介绍 在 GCC 与 VC+ + 中 定义 offsetof 宏 。 


1) 在 GCC4.4.4 的 stddef.h 头 文件 中 定义 offsetof 宏 : 


这 个 宏 是 标准 C 的 定义 ， 在 stddef.h 文 件 中 定义 。offsetof 宏 的 作 | 


是 计算 结构 体 中 每 一 个 成 员 的 偏 移 量 。F 


offsetof 宏 可 以 很 清晰 看 到 字 节 是 如 何 对 齐 


#undef offsetof 

#ifdef _ compiler offsetof 
#define offsetof (TYPE, MEMBER) 
#else 

#define offsetof (TYPE, 
#endif 

#endif 


__ Compiler offsetof (TYPE, MEMBER) 


MEMBER) ( (size t) & ( (TYPE *) 0) ->MEMBER) 


2) 在 Microsoft Visual Studio 2010 (VC++) 的 stddef.h 头 文件 中 定义 offsetof 宏 : 


#ifdef _ cplusplus 
#ifdef WIN64 


#define offsetof (s, m) (size t) ( (ptrdiff t) g&reinterpret cast<const volatile char&> ((((s *) 0) ->m) ) ) 
#else 

#define offsetof (s, m) (size t) &reinterpret cast<const volatile char&> ( ( ( (s *) 0) ->m) ) 
#endif 

#else 

#ifdef WIN64 

#define offsetof (s, m) (size t) ( (ptrdiff t) & ( ((s *) 0) ->m) ) 

#else 

#define offsetof (s, m) (size t) & ( ( (s *) 0) ->m) 

#endif 

#endif 


为 了 加 深 大 家 对 结构 体 对 齐 原则 的 理解 ， 下 面 继续 看 几 个 结构 体 示 例 。 


(1) 结构 体 示例 1 (TestStruct1) 


具体 定义 如 下 面 的 代码 所 示 : 


typedef struct 
{ 

char a; 

long double b; 
} TestStruct1; 


根据 上 面 的 


“结构 体 大 小 的 计算 方法 和 步骤 ”， 该 结构 体 的 大 小 在 Windows 中 计算 步骤 如 下 : 


1) 结构 体内 所 有 数据 成 员 的 长 度 值 相 加 为 : sum_a=1 (char 为 1 个 字 节 的 长 度 ) +8 (long double 为 8 个 字 节 的 长 度 ) =9。 


2) 将 数据 成 员 a 放 在 相对 偏 移 0 处 ， 之 前 不 需要 填充 字 节 。 数 据 成 员 b 为 了 内 存 对 齐 ， 依 昭 


sum_b=sum_a+7=16。 


“结构 体 大 小 的 计算 方法 和 步骤 ”中 第 2 条 原则 ， 


对 齐 模 数 是 8 


， 所 以 之 前 需要 填充 7 个 字 节 。 这 时 候 


3) 按照 定义 ， 结 构 体 对 齐 模 数 是 结构 体内 部 最 大 数据 成 员 长 度 和 pragma pack 中 较 小 者 ， 而 这 里 的 sum_b 是 对 齐 模 数 的 倍数 ， 所 以 不 需 再 次 对 齐 。 


综合 以 上 3 步 可 知 ， 结 构 体 的 长 度 是 16， 各 数据 成 员 在 内 存 中 的 分 布 如 图 7-1 所 示 。 


上 面 分 析 了 在 Windows 中 的 计算 步骤 ， 接 下 来 继续 分 析 在 Linux 中 的 计算 步 又: 


1) 结构 体内 所 有 数据 成 员 的 长 度 值 相 加 为 : sum_a=1 (char 为 1 个 字 节 的 长 度 ) +12 (long double 为 12 个 字 节 的 长 度 ) =13。 


2) 数据 成 员 a 放 在 相对 偏 移 0 处 ， 之 前 不 需要 填充 字 节 。 数 据 成 员 b 为 了 内 存 对 齐 ， 依 照 “ 结 构 体 大 小 的 计算 方法 和 步骤 ”中 第 2 条 原则 ， 其 对 齐 模 数 是 4， 所 以 之 前 需 填充 3 个 字 节 。 这 时 候 


sum b=sum a+3=16。 


3) 按照 定义 ， 结 构 体 对 齐 模 数 是 结构 体内 部 最 大 数据 成 员 长 度 和 pragma pack 中 较 小 者 。 这 里 的 结构 体内 部 最 大 数据 成 员 b 的 长 度 为 12， 而 后 者 为 4， 所 以 结构 体 对 齐 模 数 是 4。sum_b 是 4 的 4 倍 ， 因 
此 不 需要 再 次 对 齐 。 


综合 以 上 3 步 可 知 ， 结 构 体 的 长 度 是 16， 各 数据 成 员 在 内 存 中 的 分 布 如 图 7-1 所 示 。 
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Windows 7 下 VC++ Red Hat Enterprise Linux 6 下 GCC 


7-1 示例 1 各 个 成 员 的 内 存 分 布 


为 了 验证 上 面 的 分 析 结果 ， 我 们 可 以 通过 一 段 代码 来 测试 一 下 ， 如 代码 清单 7-1 所 示 。 


代码 清单 7-1 ”结构 体 示 例 1 (TestStruct1) 的 测试 程序 


#include <stdio.h> 
#include <stddef.h> 
typedef struct 
{ 

Char a; 

long double b; 
}TestStruct1; 
int main (void) 


printf ("\nsizeof (TestStruct1) : %d\nsizeof (char) : %d\n™" 

"sizeof (long double) : %d\n\n", 

sizeof (TestStruct1) , sizeof (char) , sizeof (long double) ) ; 
printf ("offsetof (TestStruct1，a) : %d\n" 

"offsetof (TestStruct1，b) : %d\n\n", 

offsetof (TestStruct1，a) , offsetof (TestStruct1，b) ) ; 
TestStruct1 data; 
printf ("TestStruct1->a: SuNnTestStruct1->b: gu\n\n", 

&data.a, &data.b) ; 
return 0; 


代码 清单 7-1 的 运行 结果 如 图 7-2 和 图 7-3 所 示 ， 其 运行 结果 与 我 们 的 分 析 结 果 相 同 。 


mawei@mawel:~=/c 


立 忻 IE) 编辑 {E) 查看 (好 排 索 15) 溉 缠 [ 本 ) 才 助 {H) 
[maweidmawei cl$ gece Test.c -日 Test ee: 
[maweifimawei cj$ .A/Test | 


sizeofiTeststructl}: 16 
sijzeofrchar}: 1 
sizeofilong double}): 12 


offsetofiTeststructl,a)}: 自 
offsetofiTeststructl,b}: #4 


TestSstructl-=a: 3216734384 
TestSstructl-sb: 32167343868 | 


图 7-2 ”代码 清单 7-1 在 Red Hat Enterprise Linux 6 (i386) /GCC 4.4.4 中 的 运行 结果 
C\Windows\system32\cmd.exe 
izeof 《TestStructi>2: i16 


izeof 《char>: 1 
izeof long double>»: 8 


[和 


le jl jl 


offsetof TestStructi,.a>: @ 
offsetof<TestStructi,.b»: 8 


TestStructi—>2a: 3864412 
TestStructi—>b: 3864420 


图 7-3 ”代码 清单 7-1 在 Windows 7 (32 位 ) /Microsoft Visual Studio 2010 (VC++) 中 的 运行 结果 


(2) 结构 体 示 例 2 (TestStruct2) 


体 定义 如 下 面 的 代码 所 示 : 


typedef struct 
{ 


根据 上 面 的 “结构 体 大 小 的 计算 方法 和 步骤 ”， 该 结构 体 的 大 小 在 Windows 中 的 计算 步骤 如 下 : 


1) 结构 体内 所 有 数据 成 员 的 长 度 值 相 加 为 : sum_a=1 (char 为 1 个 字 节 的 长 度 ) +8 (double 为 8 个 字 节 的 长 度 ) +1 (char 为 1 个 字 节 的 长 度 ) =10。 


2) 数据 成 员 a 放 在 相对 偏 移 0 处 ， 之 前 不 需要 填充 字 节 。 数 据 成 员 b 为 了 内 存 对 齐 ， 根 据 “ 结 构 体 大 小 的 计算 方法 和 步骤 ”中 第 2 条 原则 ， 其 对 齐 模 数 是 8， 所 以 之 前 需 填充 7 个 字 节 。 这 时 候 


sum_b=sum_a+7=17。 


3) 按照 定义 ， 结 构 体 对 齐 模 数 是 结构 体内 部 最 大 数据 成 员 长 度 和 pragma pack 中 较 小 者 ， 而 这 里 前 者 和 后 者 都 为 8， 因 此 结构 体 对 齐 模 数 是 8。sum_b 应 该 是 8 的 整数 倍 ， 所 以 要 在 结构 体 后 填充 8x3- 


17=7 个 字 节 。 


综合 以 上 3 步 可 知 ， 结 构 体 的 长 度 是 24， 各 数据 成 员 在 内 存 中 的 分 布 如 图 7-4 所 示 。 


上 面 分 析 的 是 在 Windows 中 的 计算 步骤 ， 接 下 继续 分 析 在 Linux 中 的 计算 步 又: 


1) 结构 体内 所 有 数据 成 员 的 长 度 值 相 加 为 : sum_a=1 (char 为 1 个 字 节 的 长 度 ) +8 (double 为 8 个 字 节 的 长 度 ) +1 (char 为 1 个 字 节 的 长 度 ) =10。 


2) 数据 成 员 a 放 在 相对 偏 移 0 处 ， 之 前 不 需要 填充 字 节 ; 数据 成 员 b 为 了 内 存 对 齐 ， 根 据 “ 结 构 体 大 小 的 计算 方法 和 步骤 ”中 第 2 条 原则 ， 其 对 齐 模 数 是 4， 所 以 之 前 需 填充 3 个 字 节 。 这 时 候 


sum b=sum a+3=13。 


3) 按照 定义 ， 结 构 体 对 齐 模 数 是 结构 体内 部 最 大 数据 成 员 长 度 和 pragma pack 中 较 小 者 ， 而 这 里 前 者 为 8， 后 者 为 4， 因 此 结构 体 对 齐 模 数 是 4。sum_b 应 该 是 4 的 整数 倍 ， 所 以 要 在 结构 体 后 填充 4x4- 


13=3 个 字 节 。 


综合 以 上 3 步 可 知 ， 可 知 结构 体 的 长 度 是 16， 各 数据 成 员 在 内 存 中 的 分 布 如 图 7-4 所 示 。 
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7-4 示例 2 各 个 成 员 的 内 存 分 布 


同样 ， 为 了 验证 上 面 的 分 析 结果 ， 可 以 通过 一 段 代码 进行 测试 ， 如 代码 清单 7-2 所 示 。 


代码 清单 7-2 ”结构 体 示例 2 (TestStruct2) 的 测试 程序 


int main (void) 
{ 
printf ("\nsizeof (TestStruct2) : %d\nsizeof (char) : S$%d\n™ 
"sizeof (double) : %d\n\n", 
sizeof (TestStruct2) , sizeof (char) , sizeof (double) ) ; 
printf ("offsetof (TestStruct2, a) : %d\n" 
"offsetof (TestStruct2, b) : %d\n" 
"offsetof (TestStruct2，c) : %d\n\n", 
offsetof (TestStruct2, a) , offsetof (TestStruct2, b) ， 
offsetof (TestStruct2，c) ) ; 
TestStruct2 data; 
printf ("TestStruct2->a: S$%u\nTestStruct2->b: S$%u\n™ 
"Teststruct2->c: %u\n\n", 
&data.a, &data.b, &data.c) ; 
return 0; 


代码 清单 7-2 的 运行 结果 如 图 7-5 和 图 7-6 所 示 ， 其 运行 结果 与 分 析 结 果 相同 。 


司 | mawei@mawei:~/c 
立 忻 IE) 编辑 ({E) 查看 (YW)】 扶 索 5) 1 才 助 {H) 


[maweif@mawei c] c]$ gce - gCt Test.c -0 Test 
[mweifdmawei clj$ /Test 


3izeof iTestSstruct2}: 16 
sijzeofrchar}: 
sijzeof idouble}: 


offsetof (Teststruct2a,a): 
offsetof{iTestSstruct2,b}: 4 
offsetof{TestSstruct2,c): 


Teststruct2-=a: 3214998416 | 
Testst ruct2-s=b: 3214998428 
TestStruct2-s%e: 3214999429 村 


图 7-5 ”代码 清单 7-2 在 Red Hat Enterprise Linux 6 (i386) /GCC 4.4.4 中 的 运行 结果 


EB C:\Windows\system32\cmd,exe 


SA 
SA 
sizeof Cdouble: 8 


offsetof CTestStruct2,.a>»: 日 
offsetof 《IestStruct2,.b>: 8 


offsetof 《TestStruct2,.c>: i6 


TestStruct2—>a: 3014316 
TestStruct2—>h: 30914324 
TestStruct2—>c: 3914332 


图 7-6 ”代码 清单 7-2 在 Windows 7 (32 位 ) /Microsoft Visual Studio 2010 (VC++) 中 的 运行 结果 


(3) 结构 体 示例 3 


体 定义 如 下 面 的 代码 所 示 : 


由 上 面 的 示例 代码 可 以 看 出 ， 此 示例 与 前 两 个 示例 有 所 不 同 。 在 此 示例 中 我 们 要 计算 结构 体 B 的 大 小 ， 而 结构 体 B 中 又 赃 套 了 一 个 结构 体 A。 这 种 结构 体 应 该 如 何 计算 呢 ? 


其 实 方法 很 简单 ， 我 们 只 需要 将 结构 体 A 在 结构 体 B 中 先 展开 ， 然 后 再 计算 ， 即 展开 成 如 下 结构 体 : 


typedef struct 
{ 


int a; 

char b; 

double d; 

int e; 

char 工 ; 
]B; 


根据 前 面 的 “结构 体 大 小 的 计算 方法 和 步骤 ”， 该 结构 体 的 大 小 在 Windows 中 的 计算 步骤 如 下 : 


1) 结构 体内 所 有 数据 成 员 的 长 度 值 相 加 为 : sum_a=4 (int 为 4 个 字 节 的 长 度 ) +1 (char 为 1 个 字 节 的 长 度 ) +8 (double 为 8 个 字 节 的 长 度 ) +4 (int 为 4 个 字 节 的 长 度 ) +1 (char 为 1 个 字 节 的 长 
度 ) =18。 


2) 数据 成 员 d 为 了 内 存 对 齐 ， 根 据 “ 结 构 体 大 小 的 计算 方法 和 步骤 ”中 第 2 条 原则 ， 其 对 齐 模 数 是 8， 所 以 之 前 需 填充 3 个 字 节 。 这 时 候 sum_b=sum_a+3=21。 


3) 按照 定义 ， 结 构 体 对 齐 模 数 是 结构 体内 部 最 大 数据 成 员 长 度 和 pragma pack 中 较 小 者 ， 而 这 里 前 者 和 后 者 都 为 8， 因 此 结构 体 对 齐 模 数 是 8。sum_b 应 该 是 8 的 整数 倍 ， 所 以 要 在 结构 体 后 填充 3x8- 


21=3 个 字 节 。 


综合 以 上 3 步 可 知 ， 可 知 结构 体 的 长 度 是 24， 各 数据 成 员 在 内 存 中 的 分 布 如 图 7-7 所 示 。 


上 面 分 析 完 Windows 中 的 计算 步骤 ， 接 下 来 继续 分 析 在 Linux 中 的 计算 步骤 : 


1) 结构 体内 所 有 数据 成 员 的 长 度 值 相 加 为 : sum_a=4 (int 为 4 个 字 节 的 长 度 ) +1 (char 为 1 个 字 节 的 长 度 ) +8 (double 为 8 个 字 节 的 长 度 ) +4 (int 为 4 个 字 节 的 长 度 ) +1 (char 为 1 个 字 节 的 长 
度 ) =18。 


2) 数据 成 员 b 为 了 内 存 对 齐 ， 根 据 “ 结 构 体 大 小 的 计算 方法 和 步骤 ”中 第 2 条 原则 ， 其 对 齐 模 数 是 4， 所 以 之 前 需 填充 3 个 字 节 。 这 时 候 sum_b=sum_a+3=21。 


3) 按照 定义 ， 结 构 体 对 齐 模 数 是 结构 体内 部 最 大 数据 成 员 长 度 和 pragma pack 中 较 小 者 ， 而 这 里 前 者 和 后 者 都 为 4， 因 此 结构 体 对 齐 模 数 是 4。sum_b 应 该 是 4 的 整数 倍 ， 所 以 要 在 结构 体 后 填充 6x4- 


21=3 个 字 节 。 


4) 综合 以 上 3 步 可知 ， 可 知 结构 体 的 长 度 是 24， 各 数据 成 员 在 内 存 中 的 分 布 如 图 7-7 所 示 。 
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7-7 示例 3 各 个 成 员 的 内 存 分 布 


同样 ,为 了 验证 上 面 的 分 析 结 果 ， 可 以 通过 一 段 代 码 进行 测试 ， 如 代码 清单 7-3 所 示 。 


代码 清单 7-3 ”结构 体 示例 3 的 测试 程序 


int main (void) 
{ 
printf ("\nsizeof (B) : 
Printf ("offsetof (B, c) : 
" (offsetof (A, a) : 
"offsetof (B, d) : 
"offsetof (B，f) : %d\n\n", 
offsetof (B, c) , offsetof (A, a) , offsetof (A, b) ， 
offsetof (B, d) , offsetof (B, e) , offsetof (B，f) ); 
B data; 
printf ("B->c: %u (B->c.a: %u B->c.b: $%u) \nn 
"B->d: %u\nB->e: %u\nB->f: gu\n\n", 
&data.c, &data.c.a, &data.c.b, &data.d, &data.e, &data.f) ; 


sd offsetof (A, b) : %d) \n" 
\noffsetof (B, e) : %d\n" 


return 0; 


} 


代码 清单 7-3 的 运行 结果 如 图 7-8 和 图 7-9 所 示 ， 其 运行 结果 与 分 析 结 果 相同 。 


加 mawei@mawei:-/c 


立 件 (FE) 编辑 {E) 查看 (Y) LS) ”经 端 [ 革 ) 才 助 {H) 
[maweiimawei cl$ gcc Test.c -oa Test 
[maweifimawei cls$ .A/Test 


sizeof{(B): 24 

offsetofiB,c): 8 

{offsetot(A,a): 8 offsetoflA,b}: 4) 
offsetoftB,d}: 8 

offsetofiB,e): 16 

offsetofiB,f}: 28 


B-=c: 3228387816(B->c.a: 3228387816 B->c.b: 3228387828) 
B-=>d: 3229387924 
B->e: 32286387832 
B->f: 3229387936 


图 7-8 ”代码 清单 7-3 在 Red Hat Enterprise Linux 6 (i386) /GCC 4.4.4 中 的 运行 结果 


: 24 
ofEESetoftcBc>: 日 
offsetof (A.a: 上 日 offsetofech hb>: 4> 
offsetof (B.d»: 8 
offsetof (CB.e»: 16 
offsetof CB.f 2》: 20 


B-—>c: 3603456¢B-—>c .a: 3683456 B-->c.b: 36834608> 
B->d: 36063464 
B->2e: 36b03472 
B->2f: 36034276 


图 7-9 ”代码 清单 7-3 在 Windows 7 (32 位 ) /Microsoft Visual Studio 2010 (VC++) 中 的 运行 结果 


除 上 面 默认 的 内 存 对 齐 之 外 ， 我 们 也 可 以 通过 下 面 的 方法 改变 默认 的 对 齐 模 数 。 


1) 使 用 伪 指 令 #pragma pack (n) ，n 表 示 对 齐 模 数 ， 它 可 以 是 1、2、4、8 等 ， 编 译 器 将 按照 n 个 字 节 对 齐 。 


2) 使 用 伪 指 令 #pragma pack () ， 取 消 自 定义 字 节 对 齐 方式 ， 即 将 上 一 次 #pragma pack (n) 的 设置 取消 ， 恢 复 为 默认 值 。 


i 


下 面 的 示例 代码 所 示 : 


#pragma pack (2) 
typedef struct 
{ 

char a; 

long double b; 
}TestStruct1; 


#Pragma Pack () 


因为 上 面 的 代码 使 


了 #pragma pack (2) 编译 参数 ， 它 将 强制 指定 对 齐 模 数 为 2。 根 据 前 面 的 “结构 体 大 小 的 计算 方法 和 步骤 ”， 该 结构 体 的 大 小 在 Windows 中 的 计算 步骤 如 下 : 


1) 结构 体内 所 有 数据 成 员 的 长 度 值 相 加 为 : sum_a=1 (char 为 1 个 字 节 的 长 度 ) +8 (long double 为 8 个 字 节 的 长 度 ) =9。 


2) 将 数据 成 员 a 放 在 相对 偏 移 0 处 ， 之 前 不 需要 填充 字 节 。 数 据 成 员 b 为 了 内 存 对 齐 ， 根 据 


sum_b=sum_a+1=10。 


“结构 体 大 小 的 计算 方法 和 步骤 ”中 第 2 条 原则 ， 其 对 齐 模 数 是 2， 所 以 之 前 需要 填充 1 个 字 节 。 这 时 候 


3) 按照 定义 ， 结 构 体 对 齐 模 数 是 结构 体内 部 最 大 数据 成 员 长 度 和 pragma pack 中 较 小 者 ， 而 这 里 前 者 为 8， 后 者 为 2， 所 以 结构 体 对 齐 模 数 是 2。sum_b 是 2 的 5 倍 ， 因 此 不 需要 再 次 对 齐 。 


综合 以 上 3 步 可知 ， 结 构 体 的 长 度 是 10， 各 数据 成 员 在 内 存 中 的 分 布 如 图 7-10 所 示 。 


上 面 分 析 完 在 Windows 中 的 计算 步骤 ， 接 下 来 继续 来 分 析 在 Linux 中 的 计算 步骤 : 


1) 结构 体内 所 有 数据 成 员 的 长 度 值 相 加 为 : sum_a=1 (char 为 1 个 字 节 的 长 度 ) +12 (long double 为 12 个 字 节 的 长 度 ) =13。 


2) 将 数据 成 员 a 放 在 相对 偏 移 0 处 ， 之 前 不 需要 填充 字 节 。 数 据 成 员 b 为 了 内 存 对 齐 ， 根 和 


sum b=sum a+1=14。 


3) 按照 定义 ， 结 构 体 对 齐 模 数 是 结构 体内 部 最 大 数 拉 


综合 以 上 3 步 可 知 ， 结 构 体 的 长 度 是 14， 各 数据 成 员 在 内 存 中 的 分 布 如 图 7-10 所 示 。 


0 
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除 此 之 外 ， 有 时 候 我 们 并 不 希望 这 种 字 节 对 齐 处理 ， 比 如 ， 在 两 个 主机 进行 网 络 通信 时 ， 我 们 不 需要 因为 字 节 对 齐 而 传送 多 余 的 字 节 。 在 这 种 情况 下 ， 可 以 在 结构 之 前 加 上 “#pragma pack (1)“ 
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Windows 7 下 VC++ 


图 7-10 “示例 4 各 个 成 员 的 内 存 分 布 


译 预 处 理 命令 ， 它 将 告诉 编译 器 对 其 后 的 结构 体 采用 一 个 字 节 对 齐 技术 进行 处 理 。 示 例 代码 如 下 : 


居 “ 结 构 体 大 小 的 计算 方法 和 步骤 ”中 第 2 条 原则 ， 


对 齐 模 数 是 2， 所 以 之 前 需 填充 1 个 字 节 。 这 时 候 


居 成 员 长 度 和 pragma pack 中 较 小 者 ， 而 这 里 前 者 为 8， 后 者 为 2， 所 以 结构 体 对 齐 模 数 是 2。sum_b 是 2 的 7 倍 ， 因 此 不 需要 再 次 对 齐 。 


SS 


Red Hat Enterprise Linux 6 FGCC 


#pragma pack (1) 
typedef struct 
Char a; 
long double b; 
}TestStruct1; 
#pragma pack () 


这 样 ， 通 过 #pragma pack (1) 让 编译 器 将 结构 体 数据 强制 连续 排列 ， 结 构 体 的 大 小 如 下 : 


/* 在 Windows 7 (32 位 ) /Microsoft Visual Studio 2010 (VC++) 中 运行 结果 */ 


sizeof (TestStruct1) : 9 


/* 在 Red Hat Enterprise Linux 6 (i386) /GCC 4.4.4 中 运行 结果 */ 


sizeof (TestStruct1) : 13 


最 后 值得 一 提 的 是 ， 不 采 


字 节 对 齐 将 影响 程序 的 运行 效率 。 


建议 64: 结构 体 的 长 度 不 一 定 等 于 各 个 成 员 的 长 度 之 和 


上 面 已 经 阐述 过 ， 由 于 结构 体内 存 对 齐 的 原因 ， 结 构 体内 可 能 存在 着 许多 填充 字符 (在 起 始 位 置 不 存在 这 种 情况 ) ， 


此 其 长 度 并 不 一 定 等 于 它 的 各 个 成 员 的 长 度 之 和 。 在 处 理 结构 体 的 时 候 一 定 要 注 


点 ， 来 看 下 面 这 段 示例 代码 : 


typedef struct 
{ 


char c; 
Eis ef 
}Buffer; 
void Func (const Buffer *src) 
{ 
Buffer *dst= (Buffer *) malloc (5) ; 
if (dst! =NULL) 
{ 
memcpy (dst, src, sizeof (Buffer) ) ; 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 
free (dst) ; 


从 上 面 的 代码 中 不 难 发 现 ,语句 “Buffer*dst= (Buffer*) malloc (5) ”存在 问题 。 例 如 ， 在 默认 对 齐 模 数 的 情况 下 ，sizeof (Buffer) 的 值 应 该 为 8， 而 这 里 只 分 配 了 5， 很 显然 内 存 分 配 不 够 ， 从 而 
导致 “memcpy (dst，src，sizeof (Buffer) ) ”语句 执行 出 现 问 题 。 因 此 ， 在 分 配 内 存 的 时 候 必 须 考虑 结构 体 的 填充 字符 ， 如 下 面 的 代码 所 示 : 


typedef struct 
{ 
Char c; 
To 
}Buffer; 
void Func (const Buffer *src) 
{ 
Buffer *dst= (Buffer *) malloc (sizeof (Buffer) ) ; 
if (dst! =NULL) 
{ 
memcpy (dst, src, sizeof (Buffer) ) ; 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...*/ 
free (dst) ; 


这 样 就 不 会 出 现 内 存 分 配 不 足 的 情况 了 。 


建议 65: 避免 在 结构 体 之 间 执行 逐 字 节 比 较 


与 前 面 的 建议 一 样 ， 由 于 结构 体内 存 对 齐 的 原因 ， 结 构 体内 可 能 存在 着 许多 填充 字符 (在 起 始 位 置 不 存在 这 种 情况 ) 。 但 是 这 些 填 充 字 符 的 内 容 和 数量 都 是 由 编译 器 决定 的 。 如 果 试 图 在 结构 体 之 间 执 
行 逐 字 节 比较 ， 很 可 能 会 导致 无 法 预见 的 结果 。 


来 看 下 面 这 段 示例 代码 : 


typedef struct 
{ 


unsigned int Func (const Buffer *bufl, const Buffer *buf2) 
{ 
if (! memcmp (bufl, buf2, sizeof (Buffer) ) ) 
{ 
return 1; 


else 


return 0; 


很 显然 ， 在 默认 的 对 齐 模 数 情况 下 ， 上 面 的 结构 体 存在 着 一 些 填 充 字 符 。 而 这 些 填 充 字 符 很 可 能 导致 “memcmp (buf1，buf2，sizeof (Buffer) ) ”语句 对 这 两 个 结构 进行 比较 的 结果 并 不 相等 ， 即 
使 它们 的 字段 内 容 是 相同 的 。 这 是 由 于 填充 字 节 的 内 存 可 能 并 没有 进行 初始 化 ， 它 们 所 包含 的 可 能 是 任意 的 内 容 。 与 此 同时 ， 为 字符 数组 buf 所 分 配 的 未 使 用 内 存 也 有 可 能 会 导致 这 两 个 结构 的 比较 结果 不 相 


Bt 
同 。 


因此 ， 正 确 的 比较 方法 应 该 按照 以 下 示例 代码 进行 : 


typedef struct 


unsigned int Func (const Buffer *bufl, const Buffer *buf2) 
if (bufl->c! =buf2->c) 

! return 0; 

1s (bufl->i! =buf2->i) 

: return 0; 

is (strcmp (bufl->buf, buf2->buf) ! =0) 

。 return 0; 


i 


return 1; 


这 样 才能 够 真正 实现 逐 字 比较 的 效果 。 


建议 66: 谨慎 使 用 位 域 


有 些 信息 在 存储 时 并 不 需要 占用 一 个 完整 的 字 节 ， 而 只 需 占 几 个 或 一 个 二 进 制 位 。 例 如 ， 在 存放 一 个 开关 量 时 ， 只 有 0 和 1 两 种 状态 ， 用 一 个 二 进 制 位 即 可 。 为 了 节省 存储 空间 ， 并 且 使 处 理 更 简便 ，C 
语言 又 提供 了 一 种 数据 结构 ， 称 为 “位 域 ” 或 “位 段 ”。 所 谓 “ 位 域 ” 是 把 一 个 字 节 中 的 二 进位 划分 为 几 个 不 同 的 区 域 ， 并 说 明 每 个 区 域 的 位 数 。 每 个 域 有 一 个 域名 ， 人 允许 在 程序 中 按 域名 进行 操作 。 这 样 
就 可 以 把 几 个 不 同 的 对 象 用 一 个 字 节 的 二 进 制 位 域 来 表示 。 在 位 域 的 使 用 中 ， 应 该 特别 注意 如 下 几 点 : 


1) 位 域 只 能 够 被 定义 为 unsigned int 或 singed int 类 型 ， 而 不 允许 将 位 域 定义 为 enum、short 或 char 等 类 型 。 


2) 在 带 位 域 的 结构 内 存 中 ， 各 个 位 域 的 存储 方式 取决 于 具体 的 编译 程序 ， 有 的 从 左 向 右 分 配 〈 即 从 高 字 节 向 低 字 节 分 配 ) ， 有 的 从 右 向 左 分 配 〈 即 从 低 字 节 向 高 字 节 分 配 ) 。 


相连 接 的 问题 。 


3) 一 个 位 域 必须 存储 在 同一 个 字 节 中 ， 不 能 跨 两 个 字 节 。 当 一 个 字 节 所 剩 空间 不 够 存放 另 一 位 域 时 ， 应 该 从 下 一 单元 起 存放 该 位 域 。 当 然 ， 也 可 以 有 意 使 某 个 位 域 从 下 一 和 


下 : 


因此 ， 


使 用 时 应 注意 首尾 


元 开始 存放 。 示 例 代码 如 


struct Status_TYPe 


unsigned cts: 4; 

六 安 坊 */ 

unsigned : 0; 

/* 从 下 一 单元 开始 存放 */ 

unsigned dsr: 4; 

unsigned edg: 4; 

unsigned rec: 4; 
}status; 


在 这 个 位 域 定义 中 ，cts 占 第 一 字 节 的 4 位 ， 后 4 位 填 0 表示 不 使 用 。 而 dsr 从 第 二 字 节 开始 ， 占 用 4 位 ，edg 占 用 4 位 ，rec 占 用 4 位 。 


4) 由 于 位 域 不 允许 跨 两 个 字 节 ， 因 此 位 域 的 长 度 不 能 大 于 一 个 字 节 的 长 度 ， 也 就 是 说 不 能 超过 8 个 二 进 制 位 。 


5) 位 域 可 以 无 位 域名 ， 这 时 它 只 用 作 填 充 或 调整 位 置 。 无 名 的 位 域 是 不 能 使 用 的 ， 如 下 面 的 示例 代码 所 示 : 


struct Status Type 


unsigned cts: 4; 
/* 无 名 位 域 : 该 4 位 不 能 使 用 */ 
unsigned : 4; 
unsigned dsr: 4; 
unsigned edg: 4; 
unsigned rec: 4; 

}Status; 


在 这 里 无 名 位 域 的 作用 是 将 cts 成 员 和 dsr 成 员 用 4 个 空位 分 隔 开 ， 即 在 cts 成 员 后 面 空 4 位 不 用 ， 接 着 是 dsr 成 员 占 4 位 。 


6) 位 域 的 位 置 不 能 访问 ， 因 此 不 能 对 位 域 使 用 地 址 运算 符 “&”。 


最 后 还 需要 说 明 的 是 ， 由 于 位 域 的 实现 会 因 编 译 程序 的 不 同 而 不 同 ， 因 此 在 使 用 位 域 时 ， 会 影响 程序 的 可 移植 性 ， 例 如 ，int 位 域 被 当 作 有 符号 还 是 无 符号 数 ; 位 域 中 位 的 最 大 数目 范 


围 ， 若 32 位 机 器 上 


的 位 域 放 到 16 位 机 上 可 能 会 无 法 运行 ; 位 域 中 的 成 员 在 内 存 中 是 从 左 到 右 分 配 的 还 是 从 右 到 左 分 配 的 ; 如 果 一 个 声明 指定 了 两 个 位 域 ， 当 第 2 个 位 域 比较 大 而 无 法 容纳 第 1 个 位 域 剩余 的 位 时 ， 编 译 器 有 可 能 
把 第 2 个 位 域 放 在 内 存 的 下 一 个 字 节 ， 也 可 能 直接 放 在 第 1 个 位 域 后 面 ， 从 而 在 两 个 内 存 位 置 的 边界 上 形成 重 赫 。 


鉴于 这 些 原因 ， 我 们 建议 在 非 必须 使 用 位 域 的 情况 下 最 好 不 要 使 用 。 与 此 同时 ， 尽 管 位 域 可 以 节省 空间 ， 但 却 增加 了 处 理 时 间 。 


建议 67: 谨慎 使 用 枚 举 


枚 举 是 一 个 被 命名 的 整 型 常数 的 集合 ， 在 日 常生 活 中 到 处 可 见 。 例 如 ， 一 个 星期 内 只 有 7 天 ， 一 年 只 有 12 个 月 等 。 下 面 的 示例 代码 演示 了 如 何 用 枚 举 来 定义 一 个 星期 。 


enum Weekday 

{ 
Sunday, 
Monday, 
Tuesday, 
Wednesday, 
Thursday, 
Friday, 
Saturday 


由 此 可 见 ， 一 旦 在 “ 枚 举 ” 类 型 的 定义 中 列举 出 所 有 可 能 的 取 值 ， 就 说 明 该 “ 枚 举 ” 类 型 的 变量 取 值 不 能 超过 定义 的 范围 


分 解 为 任何 基本 类 型 。 


在 使 用 枚 举 的 过 程 中 ， 我 们 应 该 注意 如 下 几 点 : 


1) 枚 举 型 是 一 个 集合 ， 集 合 中 的 元 素 ( 枚 举 成 员 ) 是 一 些 命名 的 整 型 常量 ， 元 素 之 间 用 逗号 “，”“ 


隔 开 ， 而 不 是 用 分 号 “; ” ， 最 后 一 个 成 员 可 省 略 逗 号 “，“ 


2) 枚 举 元 素 是 按 常量 处 理 的 ( 故 称 枚 举 常量 ) ， 它 们 不 是 变量 。 因 此 ， 不 能 在 程序 中 用 赋值 语句 


3) 在 默认 情况 下 ， 枚 举 元 素 本 身 由 系统 定义 了 一 个 表示 序号 的 数值 ， 从 0 开始 顺序 定义 为 0，1，2， 
枚 举 分 别 用 一 个 常数 表示 不 同 颜色 : 


对 它 赋值 。 


…。 当然， 我 们 也 可 以 使 用 初始 化 值 ， 同 时 初始 化 时 可 以 为 负数 ， 以 后 的 标识 符 仍 依次 加 1。 下 面 的 


。 同 时 ， 枚 举 类 型 是 一 种 基本 数据 类 型 ， 而 不 是 一 种 构造 类 型 ， 因 为 它 不 能 再 


typedef enum 


GREEN = 1 
RED， 
BLUE， 
GREEN RED = 10, 
GREEN BLUE 
Colez; 


其 中 ， 枚 举 各 元 素 代表 的 数值 分 别 为 : 


GREEN RED = 10 
GREEN BLUE = 11 


4) 只 能 把 枚 举 值 赋予 枚 举 变量 ， 不 能 把 元 素 的 数值 直接 赋予 枚 举 变量 。 示 例 代码 如 下 : 


typedef enum 


Monday=1， 
Tuesday, 
Wednesday, 
Thursday, 
Friday, 
Saturday, 
Sunday 

}Weekday; 

int main (void) 


{ 


Weekday yesterday, today, tomorrow; 
yesterday = Monday; 

today = Tuesday; 

tomorrow = Wednesday; 


printf ("%d 
return 0; 


%d %d \n", yesterday, today, tomorrow) ; 


如 果 我 们 将 数值 直接 赋予 枚 举 变量 ， 那 错误 了 ， 如 下 面 的 示例 代码 所 示 : 


Weekday yesterday, today, tomorrow; 


Yesterday = 1; 
today 
tomorrow 


2; 
二 


上 面 的 代码 在 Microsoft Visual Studio 2010 开 发 环境 中 将 报 “a value of type"int"cannot be assigned to an entity of type"Weekday"”” 错误 提示 。 


当然 ， 如 果 一 定 要 把 数值 赋予 枚 举 变量 ， 那 么 可 以 使 用 强制 类 型 转换 来 完成 ， 如 下 面 的 示例 代码 所 示 : 


Weekday yesterday, today, tomorrow; 
yesterday = (Weekday) 1; 


today 
tomorrow 


(Weekday) 2; 
(Weekday) 3; 


在 上 面 的 代码 中 ,语句 “yesterday= (Weekday) 1” 的 意义 是 将 顺序 号 为 1 的 枚 举 元 素 赋予 枚 举 变量 yesterday， 相 当 于 语句 “yesterday=Monday”。 


量 ， 也 不 是 字符 串 常 


， 使 用 时 不 要 加 单 引号 或 双 引 号 。 


建议 68: 禁止 在 位 域 成 员 上 调用 offsetof 宏 


导致 未 定义 的 行为 发 生 ， 所 以 应 该 禁止 在 位 域 成 员 上 调用 offsetof 宏 。 


下 面 的 示例 代码 就 是 非法 的 : 


还 应 该 说 明 的 是 ， 枚 举 元 素 不 是 字符 常 


前 面 已 经 阐述 过 ，offsetof 宏 提供 了 一 种 可 移植 的 机 制 ， 可 以 用 来 计算 结构 体 中 每 个 成 员 的 偏 移 量 ， 还 可 以 通过 offsetof 宏 很 清晰 看 到 字 节 是 如 何 对 齐 的 。 但 如 果 我 们 在 位 域 成 员 上 调用 offsetof 宏 ,将 


typedef struct 
{ 


unsigned int a: 4; 
unsigned int b: 4; 


}T; 
int main (void) 


printf ("offsetof (T, a) 
printf ("offsetof (T, b) 


return 0 


%d\n", offsetof (T, a) ) ; 
a vtfeetof {(T, 1D) } 3 


修改 成 如 下 形式 才 是 合法 的 : 


typedef struct 
{ 


unsigned int a; 
unsigned int b; 


}T; 
int main (void) 


{ 


printf ("offsetof (T, a) 
printf ("offsetof (T, b) 


return 0 


%d\n", offsetof (T, a) ) ; 
avn vtfeetof {(T, BD) } 3 


建议 69: 深入 理解 结构 体 数组 和 结构 体 指针 


结构 体 数组 在 实际 应 用 中 非常 广泛 。 顾 名 思 义 ， 结 构 体 数组 就 是 数组 元 素 为 结构 体 类 型 的 数组 。 在 实际 应 用 中 ， 经 常用 结构 体 数组 来 表示 具有 相同 数据 结构 的 一 个 群体 ， 如 一 个 班 的 学 生 档案 、 一 个 车 


间 职 工 的 工资 表 等 。 


结构 体 数组 的 定义 方法 与 基本 数据 类 型 的 数组 定义 方法 类 似 ， 只 是 结构 体 数 组 中 的 每 一 个 元 素 的 数据 类 型 是 一 个 结构 体 。 
素 说 明 为 这 种 结构 体 类 型 。 


下 面 的 示例 代码 定义 了 一 个 Student 结 构 体 : 


typedef struct 


unsigned int num; 
unsigned char name[10]; 
unsigned char sex; 
unsigned int age; 


}Student; 


因此 ， 要 定义 一 个 结构 体 数 组 ， 首 先 要 定义 一 个 结构 体 类 型 ， 然 后 再 把 数组 元 


现在 , 就 可 以 使 


Student stu[3]; 


下 面 的 方式 来 定义 一 个 结构 体 数组 : 


很 显然 ， 上 面 的 结构 体 数组 stu 包 含 了 3 个 元 素 : stu[0]、stu[1]、stu[2]， 其 中 ， 每 个 数组 元 素 都 是 一 个 结构 体 。 在 定义 好 结构 体 数组 变量 之 后 ， 编 译 器 将 自动 为 所 有 结构 体 数组 元 素 分 配 足 够 的 存储 单 
元 ， 结 构 体 数组 的 元 素 是 连续 存放 的 。 


当然 ， 也 可 以 在 定义 结构 体 数组 的 时 候 直接 进行 初始 化 ， 如 下 面 的 示例 代码 所 示 : 


Student stu[3]={ 


{3, "LiSi", 'F', 20} 


与 普通 数组 一 样 ， 当 对 全 部 元 素 进行 初始 化 赋值 时 ， 也 可 以 不 给 出 数组 的 长 度 ， 如 下 面 的 示例 代码 所 示 : 


Student stu[]={ 
{1, "LiYi", 'M', 18}, 
{2, "WangJun", 'M', 19}, 
J A Tt 20 
}; 


由 于 结构 体 数组 的 每 个 元 素 类 型 都 是 结构 体 ， 所 以 其 调用 方法 和 相同 类 型 的 结构 体 变 量 一 样 ， 既 可 以 引用 数组 的 元 素 ， 如 “stu[0]”; 也 可 以 引用 结构 体 数组 元 素 的 分 量 ， 如 “stu[0].Sex”。 像 所 有 数 
组 一 样 ， 结 构 体 数组 元 素 的 下 标 也 是 从 0 开始 的 。 结 构 体 数 组 元 素 分 量 的 引用 是 通过 使 用 数组 下 标 和 结构 体 分 量 操作 符 “.” 来 完成 的 ， 如 下 面 的 示例 代码 所 示 : 


/* 调 用 结构 体 数 组 元 素 stu[0] 的 成 员 sex*/ 
stu[0] .sex; 
/* 调 用 结构 体 数 组 元 素 stu[0] 的 成 员 age*/ 
stu[0] .age; 


与 此 同时 ， 结 构 体 数组 中 各 元 素 可 以 直接 赋值 ， 如 下 面 的 示例 代码 所 示 : 


/* 第 2 个 结构 体 数 组 元 素 赋值 给 第 1 个 结构 体 数 组 元 素 */ 
stu[0]= stu[1]; 

/* 或 者 单个 结构 体 元 素 进行 赋值 */ 

stu[0] .sex=stu[1] .sex; 

stu[0] .age=stu[1] .age; 


阐述 结构 体 数 组 之 后 ， 我 们 继续 看 结构 体 指针 。 


当 一 个 指针 变量 用 来 指向 一 个 结构 体 变量 时 ， 这 个 指针 变量 就 称 为 结构 体 指针 变量 。 一 个 结构 体 指针 变量 中 的 值 是 所 指向 的 结构 体 变量 的 首 地 址 。 其 中 ， 结 构 体 指针 变量 的 定义 方式 如 下 : 


/* 指 向 结构 体 类 型 的 指针 变量 */ 
Student *pstu; 


与 前 面 讨论 的 各 类 指针 变量 相同 ， 结 构 体 指针 变量 也 必须 先 赋值 后 使 用 。 赋 值 是 把 结构 体 变量 的 首 地 址 赋予 该 指针 变量 ， 不 能 把 结构 体 名 赋予 该 指针 变量 。 示 例 代 码 如 下 : 


Student stu; 
pstu=&stu; 


定义 好 结构 体 指针 变量 ， 就 能 更 方便 地 访问 结构 体 变量 中 的 各 个 成 员 。 其 访问 的 一 般 形式 为 : 


/* 访 问 方式 一 : (* 结 构 体 指针 变量 名 ) .成 员 名 */ (*pstu) .num=1001; (*pstu) .num; 
/* 访 问 方式 二 : 结构 体 指针 变量 名 -> 成 员 名 */ 

Pstu->num=1001; 

pstu->num; 


这 里 建议 使 用 第 二 种 访问 方式 。 


1) 在 语句 “(*pstu) .num” 中 ， ”(*pstu) ”两 侧 的 括号 不 能 省 略 ， 因 为 运算 符 “.” 的 优先 级 高 于 指针 运算 符 “*”。 如 去 掉 括 号 则 写 为 以 下 形式 : 


* pstu.num; 


它 就 相当 于 : 


* ( pstu.num) ; 


表示 从 pstu 结 构 体 变量 的 成 员 num 保 存 的 地 址 中 获取 数据 。 如 果 成 员 num 中 保存 的 不 是 一 个 地 址 ， 则 执行 以 上 表达 式 时 将 会 出 现 错误 。 


2) 如 果 将 结构 体 指针 变量 赋值 写成 如 下 形式 将 是 非法 的 : 


/* 非 法 */ 
pstu=&stu.num; 


但 下 面 这 种 形式 却 是 合法 的 : 


int *p; 
p=&stu.num; 


由 此 可 见 ， 我 们 可 以 使 用 如 下 3 种 方式 来 访问 结构 体 中 的 成 员 。 


1) 结构 变量 .成 员 名 ， 如 下 所 示 : 


stu.num; 


2) (“结构 指针 变量 名 ) .成 员 名 ， 如 下 所 示 : 


(*pstu) .num; 


3) 


结构 指针 变量 名 -> 成 员 名 ， 如 下 所 示 : 


pstu->num; 


这 3 种 形式 是 完全 等 效 的 。 


当然 ， 结 构 体 指针 可 以 指 
地 址 赋值 给 结构 体 指针 变量 ， 


为 数组 名 表示 数组 的 首 地 址 ， 


Student stu[3]; 
Student *pstu; 
pstu=stu; 
/* 它 等 价 于 ; */ 
Pstu=&stu[0]; 


在 结构 体 指针 变量 “*pstu” 指 向 结构 体 数组 后 ， 就 可 使 有 


pstu ++; 


向 结构 体 变量 ， 那 么 也 可 以 统一 指向 结构 体 数 组 。 与 指针 指向 其 他 类 型 的 数组 一 样 ， 
此 ， 也 可 以 直接 将 数组 名 赋值 给 结构 体 指针 变量 。 


指针 可 以 方便 地 人 遍历 结构 体 数组 中 的 每 一 个 数组 元 素 。 可 以 将 结构 体 数组 的 第 1 个 元 素 的 


示例 代码 如 下 : 


该 指针 变量 处 理 结构 体 数组 中 的 一 个 元 素 ， 如 果 要 访问 结构 体 数组 中 的 下 一 个 元 素 ， 可 使 指针 变量 pstu 自 增 1 即 可 ， 即 : 


与 指向 其 他 数据 类 型 的 指针 相同 ， 当 指针 自 增 1 时 ， 相 当 于 执行 以 下 语句 : 


pstu= pstutsizeof (stu) ; 


下 


面 的 示例 代码 演示 了 如 何 通过 结构 体 指针 来 遍历 结构 体 数组 ， 如 代码 清单 7-4 所 示 。 


代码 清单 7-4 ”通过 结构 体 指针 来 遍历 结构 体 数 组 


int main (void) 


{ 


Student *pstu; 

printf ("NO Name Sex Age\n") ; 

for (pstu=stu; Pstu<stu+3; Pstu++) 

{ 
/*printf ("%d $s %Cc gSd\n", 

pstu->num, pstu->name, pstu->sex, pstu->age) ; 

printf ("%d %s %c Sd\n", 
(*pstu) .num, (*pstu) .name, 


等 价 于 */ 
(*pstu) .sex, (*pstu) .age) ; 
i 


return 0; 


代码 清单 7-4 的 运行 结果 如 图 7-11 所 示 。 


EZ 


19 


Name 


Li MM 


foe 


WangdJun 
Li31i FE 


图 7-11 


除 此 之 外 ， 我 们 还 可 以 通过 如 下 形式 动态 申请 结构 体 数组 : 


代码 清单 7-4 的 运行 结果 


Student * pstu; 
/* 动 态 申请 结构 体 数 组 */ 
pstu= (Student *) malloc (3 * sizeof (Student) ) ; 


1 


(pstu == NULL) 


/* 内 存 分 配 出 错 */ 


} 
/* 为 结构 体 数 组 写 入 相关 值 */ 


int i=0; 


for (i= 0; 


{ 


二 
pstul[il] .sex = 'M'; 

Pstu[i] .age =28; 

/+ 或 者 */ 

(* (pstu + i) ) .sex = 'M'; 
(* (pstu + i) ) .age =28; 
/于 区 者 < 

(BStu + 1) =>565= 'M'; 
(pstu + i) ->age =28; 


第 8 章 


字符 与 字符 串 


， 可 以 是 一 个 或 多 个 字符 。 字 符 串 常量 在 
此 ， 字 符 串 实际 占用 字 节 数 要 比 字符 串 


在 C 语 言 中 ， 字 符 常量 是 由 一 对 单 引号 括 起 来 的 单个 字符 ， 在 内 存 中 占 一 个 字 节 ， 存 放 的 是 字符 的 AsCll 码 值 ; 而 字符 串 常量 则 是 一 对 双 引 号 括 起 来 的 字符 序列 
内 存 中 按 顺 序 逐 个 存储 字符 捉 中 字符 的 ASCII 码 值 ， 并 在 最 后 自动 加 上 一 个 字符 \0”( 空 字符 ,该 字符 的 ASCII 码 值 为 0%， 也 称 为 hull 字符) 来 作为 字符 串 结束 标志 。 
中 字符 的 个 数 (长 度 ) 多 一 个 。 


对 于 字符 常量 与 字符 串 常量 ， 它 们 最 本 质 的 区 别 在 于 以 下 几 个 方面 。 


“外形 不 同 : 字符 常量 由 一 对 单 引号 括 起 来 ， 而 字符 串 常量 由 一 对 双 引 号 括 起 来 ， 也 就 是 说 a 和 "a" 是 不 同 的 。 


“内容 不 同 : 字符 常量 只 能 是 单个 字符 ， 而 字符 串 常量 则 可 以 含 一 个 或 多 个 字符 。 
“ 单 向 赋值 : 可 以 把 一 个 字符 常量 赋予 一 个 字符 变量 ， 但 不 能 把 一 个 字符 串 常 量 赋予 一 个 字符 变量 。 
“ 空间 不 同 : 字符 常量 占 1 个 字 节 的 内 存 空间 ， 而 字符 事 常 量 占 的 内 存 字 节 数 等 于 字符 串 中 字 节 数 加 1。 其 中 ， 末 尾 增加 的 1 个 字 节 用 于 存放 字符 串 结 束 的 标志 字符 \0' (ASCII 码 为 0) 。 但 值得 注意 的 


是 ， 虽 然 最 后 一 个 字符 为 \0'， 在 输出 时 不 会 输出 \0'。 而 有 全， 在 书写 程序 时 不 必 加 \0',，\0' 是 由 系统 自动 加 上 的 。 


建议 70: 不 要 忽视 字符 串 的 null (\0 ) 结尾 符 


尾 的 字符 数组 ，null 字 符 表示 字符 串 的 结束 ， 只 有 当 程 


字符 数组 来 保存 字符 串 。 也 就 是 说 ，(C 语 言 中 的 字符 串 实际 上 就 是 一 个 以 null (\0 ) 字符 结 
尾 的 字符 数组 才 是 字符 串 ， 否 则 就 只 能 够 是 一 般 的 字符 数组 。 


在 C 语 言 中 ， 并 不 存在 字符 串 这 个 数据 类 型 ， 而 是 使 
序 遇 到 null 时 才 知道 字符 串 结束 了 。 与 此 同时 ， 也 只 有 以 null 字 符 结 


建议 70-1: 正确 认识 字符 数组 和 字符 串 


既然 C 语 言 中 并 不 存在 字符 串 这 个 数据 类 型 ， 而 是 使 用 字符 数组 来 保存 字符 串 。 那 么 ， 字 符 数 组 就 一 定 是 字符 串 吗 ? 对 于 这 个 问题 ， 大 多 教科 书 中 的 回答 是 “是 ”。 其 实 不 然 ， 字 符 数 组 和 字符 串 是 完 
全 不 相同 的 两 个 概念 ， 干 万 不 要 混淆 。 看 代码 清单 8-1 所 示 的 示例 代码 。 


代码 清单 8-1 测试 字符 数组 和 字符 串 的 区 别 


#include <stdio.h> 
#include <string.h> 
int main (void) 


{ 


/* 字 符 数 组 赋 初 值 */ 

ear 人 NE 四 := Tt 
/* 字 符 囊 赋 初 值 */ 

char sArr[] = "ILOVEC"; 


/* 用 sizeof () 求 长 度 */ 


Printf ("cArr 的 长 度 =%d\n"， 
printf ("sArr 的 长 度 =%d\n"， 


/* 用 strlen () 求 长 度 */ 


Printf ("cArr 的 长 度 =%d\n"， 
Printf ("sArr 的 长 度 =%d\n"， 


sizeof (cArr) ) ; 
sizeof (sArr) ) ; 


strlen (cArr) ) ; 
strlen (sArr) ) ; 


/* 用 printf 的 和 打印 内 容 */ 


Printf ("cArr 的 内 容 =%s\n",， cArr) ; 
Printf ("sArr 的 内 容 =%s\n",， sArr) ; 
return 0; 

} 

代码 清单 8-1 的 运行 结果 如 图 8-1 所 示 。 


mawei@lamp:~/ 程 奈 坡 村 /Cc 


终端 (TI) 帮助 (H) 


文件 (EF) 编辑 (E) 查看 (V) 搜索 (5S) 
[mawei@lamp c]j$ gcc 8-1.c -0 8-1 
[mawei@lamp c]$ ./8-1 
CArr 的 长 度 =6 

SArr 的 长 度 =7 

CArr 的 长 度 =18 

SArr 的 长 度 =6 

cArr 的 内 容 =ILOVEC@@B3 

SATrr 的 内 容 =ILOVEC 

[mawei@lamp c]$ 国 


8-1 代码 清单 8-1 的 运行 结果 


从 代码 清单 8-1 及 其 运行 结果 中 可 以 看 出 如 下 几 点 。 


此 ， 对 于 sArr， 编 译 时 会 自动 在 末尾 增加 一 个 null 字 符 (也 就 是 \0 ， 用 十 六 进 制 表示 为 0x00) ; 而 对 于 cArr， 则 不 会 自动 增加 任何 


首先 ， 从 概念 上 讲 ，cArr 是 一 个 字符 数组 ， 而 sArr 是 一 个 字符 串 。 
东西 。 


记 住 ， 这 里 的 sArr 必 须 是 “char sArr[7]= "ILOVEC"” ， 而 不 能 够 是 “char sArr[6]="ILOVEC"” 。 


其 次 ， 


“sizeof () ”运算 符 求 的 是 字符 数组 的 长 度 ， 而 不 是 字符 
符 串 ， 编 译 时 会 自动 在 末尾 增加 一 个 null 字 符 ) 。 因 此 ， 对 于 以 下 代码 : 


长 度 。 


因 


此 ， 对 于 “sizeof (cArr) ”， 其 运行 结果 为 6;， 而 对 于 sizeof (SArr) ， 其 运行 结果 为 7 (之 所 以 为 7， 是 因为 SArr 是 一 个 字 


/* 字 符 数 组 赋 初 值 */ 

人 |] 二 
/* 字 符 囊 赋 初 值 */ 

Char SArr[] = "ILOVEC"; 


也 可 以 写成 如 下 等 价 形式 : 


/* 字 符 数 组 赋 初 值 */ 

ehor CArr[le) = (1 Ds MDI WO Ry 
/* 字 符 囊 赋 初 值 */ 

char sArr[7] = "ILOVEC"; 


最 后 ， 对 于 字符 串 sArr， 可 以 直接 使 用 printf 的 %s 打 印 其 内 容 ; 而 对 字符 数组 ， 很 显然 使 


通过 上 面 对 代码 清单 8-1 的 分 析 ， 现 在 我 们 可 以 很 简单 地 得 出 字符 数组 和 字符 串 二 者 之 间 的 


printf 的 %s 打 印 其 内 容 是 不 合适 的 。 


区 别 : 


“ 对 于 字符 数组 ， 其 长 度 是 固定 的 ， 其 中 任何 一 个 数组 元 素 都 可 以 为 null 字 符 。 因 此 ， 字 符 数 组 不 一 定 是 字符 事 。 


“ 对 于 字符 囊 ， 它 必须 以 null 结 尾 ， 其 后 的 字符 不 属于 该 字符 串 。 


建议 70-2: 字符 数组 必须 能 够 同时 容纳 字符 数据 和 null 结 尾 符 


同样 ， 既 然 字符 串 就 是 一 个 以 null 字 符 结 尾 的 字符 数组 ， 那 么 ， 在 声明 这 个 字符 数组 时 ， 就 必须 保证 字符 数组 具有 足够 的 空间 ， 以 便 同 时 容纳 字符 数据 和 null 结 


字符 串 一 定 是 字符 数组 ， 它 是 最 后 一 个 字符 为 null 字 符 的 字符 数组 。 


尾 符 。 如 下 | 


的 示例 代码 所 示 : 


#define ARRAY SIZE 6 
int main (void) 


{ 


Char src[ARRAY SIZE]={"'I', 'L', 'O', 'V', 'E', 


char dst [ARRAY SIZE]; 

size t i=0; 

for (i=0; src[i]&& (i<sizeof (dst) ) 
{ 


;+ 
dst[i]=src[i]; 

} 

dst [i]="\0"; 


printf ("dst=%s\n", 
return 0; 


ey 3 


很 显然 ， 上 面 示例 代码 中 “dst[ARRAY_SIZE]” 空 间 不 足 ， 从 而 导致 hull 终止 符号 不 能 够 正常 写 入 dst 中 。 


因此 ， 可 以 修改 成 如 下 形式 : 


#define ARRAY SIZE 6 
int main (void) 


{ 


char src[ARRAY SIZE]={'I', 'L', 'O', 'V', 'E', 


char dst [ARRAY SIZE+1]; 
size t i=0; 
for (i=0; src[i]&& (i<sizeof (dst) -1) ; i++) 
{ 
dst[i]=src[i]; 


} 
dst [i]="'\0'; 


printf ("dst=%s\n", 
return 0; 


dst) ; 


建议 70-3: 谨慎 字符 数组 的 初始 化 


看 下 面 这 段 示例 代码 : 


char Arr[6]={"I', "Es "Ql, VI, ‘B's 
char sArr[6]="ILOVEC"; 


其 中 ， 对 于 cArr， 


因为 它 是 一 个 字符 数组 ， 所 以 这 样 初始 化 完全 正确 。 然 而 ， 对 于 sArr， 很 显然 “char sArr[6]="ILOVEC"” 会 导致 空间 不 足 。 


上 面 已 经 阐述 过 ， 对 于 字符 串 ， 字 符 串 常量 所 指定 的 长 度 就 是 字符 串 常量 的 字符 数量 加 上 1 (这 里 的 1 即 结尾 的 null 字 符 ) 。 因 此 ， 必 须 这 样 来 初始 化 : 


char sArr[7]="ILOVEC"; 


当然 ， 也 可 以 省 略 数组 边界 ， 这 实际 上 也 是 大 多 数 程序 员 所 推荐 的 做 法 : 


Char sArr[]="ILOVEC"; 


这 样 省 略 了 数组 边界 ， 编 译 器 将 分 配 足 够 的 空间 来 存储 整个 字符 串 常量 


建议 71: 尽量 使 用 const 指 针 来 引用 字符 串 常量 


看 下 面 这 段 示例 代码 : 


及 结尾 的 null 字 符 ， 即 使 该 字符 串 


常量 的 长 度 发 生变 化 ， 编 译 器 仍然 可 以 正确 地 推断 出 数组 的 长 度 。 


Char *sArr="ILOVEC"; 
SRArr[0]='Y' 


使 用 const 关 键 字 进行 限定 ， 如 下 面 的 示例 代码 所 示 : 


义 的， 因为 字符 因此 , 我 们 需 


常量 被 认为 是 常量 ， 所 以 不 能 够 这 样 修改 。 


其 中 ,语句 “char*sArr="ILOVEC"” 将 char 指 针 sArr 初 始 为 指向 一 个 字符 串 常量 的 地 址 。 之 后 ， 在 执行 语句 “sArr[0]='Y” 时 ， 大 部 分 编译 器 都 能 够 正确 地 通过 编译 。 然 而 ， 这 样 赋值 的 结果 却 是 未 定 


const char *sArr="ILOVEC"; 


如 下 方法 : 


当然 ， 在 字符 


确实 需要 修改 的 情况 下 ， 应 该 使 


char sArr[]="ILOVEC"; 
SArr[0]='Y' 


这 样 执行 语句 “sArr[0]='Y” 后， 就 可 以 达到 预期 的 修改 效果 。 


建议 72: 区 别 strlen 函 数 与 sizeof 运 算 符 


对 于 strlen 和 sizeof， 相 信 不 少 程序 员 会 混淆 其 功能 。 虽 然 从 表面 


strlen 是 一 个 函数 ， 它 用 来 计算 指定 字符 串 str 的 长 度 ， 但 不 包括 结束 字符 ( 即 null 字 符 ) 。 其 原型 如 下 面 的 代码 所 示 : 


上 看 它们 都 可 以 求 字符 串 的 长 度 ， 但 二 者 却 存 在 着 许多 不 同 之 处 及 本 质 区 别 。 


size t strlen (Char const* Str) ; 


也 正 因为 strlen 是 一 个 函数 ， 所 以 需要 进行 一 次 函数 调 有 示例 如 下 面 的 代码 所 示 : 


， 调 


char sArr[] = "ILOVEC"; 
/* 用 strlen () 求 长 度 */ 


Printf ("sArr 的 长 度 =%d\n",， strlen (SRrr) ) ; 


有 需要 特别 注意 的 是 ， 函 数 strlen 返 


很 显然 ， 上 面 示例 代码 的 运行 结果 为 6 (因为 不 包括 结束 字符 null) 。 这 和 


回 的 是 一 个 类 型 为 size t 的 值 ， 从 而 有 可 能 让 程序 导致 意 想不到 的 结果 ， 如 下 面 的 示例 代码 所 


/* 判 断 一 */ 
if (strlen (x) >= strlen (y) ) 
{ 


} 

/* 判 断 二 */ 

if (strlen (x) - strlen (y) >= 0) 
4 

} 


从 表面 上 看 ， 上 面 的 两 个 判断 表达 式 完全 相等 ， 但 实际 情况 并 非 如 此 。 其 中 ， 判 断 表达 式 一 没什么 问题 ， 程 序 也 能 够 完全 按照 预想 的 那样 工作 ; 但 判断 表达 式 二 的 结果 就 不 一 样 了 ， 它 将 永远 是 真 ， 这 


是 为 什么 


尼 ? 


为 函数 strlen 的 返回 


原 


很 简单 ， 结果 是 size t 类 型 ( 即 无 符号 整 型 ) ， 而 size _t 类 型 绝 不 可 能 是 负 的 。 因 


同样 ， 就 算 表 达 式 中 同时 包含 了 有 符号 整数 和 无 符号 整数 ， 还 是 有 可 能 产生 意 想 不 到 的 结果 ， 如 下 面 的 代码 所 示 : 


/+ 判断 一 */ 

if (strlen (x) >= 5) 
{ 

} 

/* 判 断 二 */ 

if (strlen (x) - 5 
{ 

} 


>= 0) 


此 , 语句 “if (strlen (x) -strlen (y) >=0) ”将 永远 为 真 。 


很 显然 ， 判 断 表达 式 二 的 结果 还 是 永远 是 真 ， 其 原因 与 上 面相 同 。 

关键 字 sizeof 是 一 个 单 目 运算 符 ， 而 不 是 一 个 函数 。 与 函数 strlen 不 同 ， 它 的 参数 可 以 是 数组 、 指 针 、 类 型 、 对 象 、 函 数 等 ， 如 下 面 的 示例 代码 所 示 : 

char SRArr[] = "ILOVEC"; 

/* 用 sizeof 求 长 度 */ 

Printf ("sArr 的 长 度 =%d\n",， sizeof (sArr) ) ; 

相对 于 函数 strlen， 这 里 的 示例 代码 运行 结果 为 7 (因为 它 包 括 结束 字符 null) 。 同 时 ， 对 sizeof 而 言 ， 因 为 缓冲 区 已 经 用 已 知 字符 串 进 行 了 初始 化 ， 其 长 度 是 固定 的 ， 所 以 sizeof 在 编译 时 计算 缓冲 区 的 
长 度 。 也 正 是 由 于 在 编译 时 计算 ， 因 此 sizeof 不 能 用 来 返回 动态 分 配 的 内 存 空间 的 大 小 。 
建议 73: 在 使 用 不 受 限 制 的 字符 串 函 数 时 ， 必 须 保证 结果 字符 串 不 会 溢出 内 存 

在 C 语 言 中 ， 最 常用 的 字符 串 函数 大 都 是 不 受 限 制 的， 它们 基本 上 都 是 通过 寻找 字符 串 参 数 结尾 的 null 字 节 来 判断 字符 串 长 度 。 因 此 ， 在 使 用 这 些 函 数 时 ， 我 们 必须 保证 其 结果 字符 串 不 会 溢出 内 存 。 


建议 73-1: 避免 字符 串 拷贝 发 生 溢出 


说 到 C 语 言 中 的 字符 
null (\0') 字符 时 ， 结 束 复制 。 其 函数 原型 的 一 般 格式 如 下 : 


搁 贝 函数 ， 大 家 首先 应 该 想到 的 是 strcpy 函 数 ， 这 也 是 一 个 典型 的 不 受 限 制 的 字符 串 处 理 函 数 。 该 函数 将 源 字符 串 的 每 个 字 节 复制 到 目录 字符 串 中 ， 当 遇 到 字符 串 末尾 


Char *strcpy (char * dest, Const char * src); 


例如 ， 该 函数 在 glibc-2.17 的 strcpy.c 文 件 中 的 定义 如 下 : 


Char *strcpy (dest, src) char *dest; const char *src; 
{ 
Char cj; 
char * _ unbounded s = (char * unbounded) CHECK BOUNDS LOW (src) ; 
const ptrdiff t off = CHECK BOUNDS LOW (dest) - s-1; 
size t n; a Bs 
do 
© = obs 
s[off] = c; 


while (c!= "'\0'); 

= SG 

(void) CHECK BOUNDS HIGH (src + n); 
(void) CHECK BOUNDS HIGH (dest + n) ; 
return dest; 


其 中 ， 该 函数 的 dest 必 须 是 一 个 字符 数组 ， 或 是 一 个 指向 动态 分 配 内 存 的 数组 指针 (当然 ，dest 不 能 使 用 字符 串 常量 ) 。 在 使 用 该 函数 的 时 候 ， 必 须 保证 dest 有 足够 的 空间 容纳 要 复制 的 src。 如 果 src 过 


长 ， 而 参数 dest 所 指 的 内 存 空间 不 够 大 ， 当 复制 到 目的 缓冲 区 dest 时 ， 它 有 可 能 会 改写 到 连接 目的 缓冲 区 dest 后 方 的 存储 区 域 ， 从 而 导致 无 法 预料 的 结果 (如 发 生 缓冲 溢出 情况 ) ， 而 且 程序 通常 容易 会 出 


现 segmentation fault (区 段 错误 ， 也 就 是 常见 的 例外 现象 ) 。 如 下 面 的 示例 代码 所 示 : 


void TestStrcpy (char *src) 


char dst[5]; 

strcpy (dst, src) ; 

printf ("Se", det) $ 
} 


在 上 面 的 示例 代码 中 ， 可 以 很 容易 地 看 出 : 当 参 数 src 大 于 数组 dst 时 ， 程 序 就 会 产生 错误 。 如 下 面 的 测试 代码 所 示 : 


int main (void) 

{ 
Char *str="abcdefghijklmn"; 
TestStrcpy (str) ; 
return 0; 


E 


其 运行 结果 也 正如 我 们 所 料 ， 出 现 “ 段 错误 ”， 如 图 8-2 所 示 。 


maweiGlamp: 一 /程序 设计 / 
编辑 (E) 查看 (V) 搜索 (5) 。 终端 全 


[mawei@lamp c]$ gcc Test.c -0 Test 


[mawei@lamp cl]$ ./Test 
段 错 误 (core dumped) 
[maweiG@Lamp c] 茹 国 


图 8-2 TestStrcpy 函 数 测 试 的 运行 结果 


由 此 可 见 ， 如 果 我 们 能 够 在 strcpy 函 数 调用 前 确保 dest 足 以 容纳 src， 将 避免 这 些 不 必要 的 麻烦 。 如 下 面 的 示例 代码 所 示 : 


void TestStrcpy (char *src) 
{ 
char *dst= (char *) malloc (strlen (src) +1) ; 
if (dst! =NULL) 
{ 
strepy (dst, src) ; 
printf ("%s", dst) ; 


/六 灰 大 克 六 克 / 


这 样 , 通过 “char*dst= (char*) malloc (strlen (src) +1) ”语句 就 从 根本 上 避免 了 dst 空 间 的 不 足 ， 这 看 起 来 是 一 个 不 错 的 解决 方案 。 


当然 ， 除 可 以 采用 上 面 的 解决 方案 之 外 ， 还 可 以 采用 strncpy 函 数 来 取代 strcpy 函 数 (实际 上 ， 也 建议 大 家 这 么 做 ) 。 相 对 于 strcpy 函 数 而 言 ，strncpy 函 数 增加 了 一 个 长 度 参 数 来 控制 复制 数据 的 大 小 ， 


其 函数 原型 的 一 般 格式 如 下 : 


char *strncpy (char *dest, char *src, size t len) ; 


其 中 ， 该 函数 把 src 所 指 的 由 null 结 束 的 字符 串 的 前 len 个 字 节 复制 到 dest 所 指 的 数组 中 。 如 果 src 的 长 度 (strlen (src) ) 小 于 len， 则 dest 数 组 将 
(strlen (src) ) 大 于 len， 则 只 有 len 个 字符 会 被 复制 到 dest 中 。 


例如 ， 该 函数 在 glibc-2.17 的 strncpy.c 文 件 中 的 定义 如 下 : 


额外 的 null 填 充 到 len 长 度 ;如果 src 的 长 度 


#ifndef STRNCPY 
#define STRNCPY strncpy 
#endif 
char *STRNCPY (char *sl, Cconst char *s2, size t n) 
{ 
char c; 
Char *s = sl; 


81; 
if (n >= 4) 
{ 


size t n4 = n >> 2; 
foe. Wy 
{ 
C= *s2++; 
*t++S1 = CO 
if (c= '\0') 
break; 
C = *Ss2++; 
*++81 三 如; 
if (c= '\0') 
break; 
C = *Ss2++; 
*++81 = 如 
if (c= '\0') 
break; 
C = *s2++; 


if (ec 一 个 0) 


} 

n=n- (351-s) -1 

if (n= 0) 
TB ss 


goto zero fill; 
} 
last_chars: 
n &= 3; 


if (n= 0) 
return s; 
do 
{ 
C= *s2++; 
*++tBl = G&G, 
if (--n 一 0) 
Zetoro 8 
while (C1= 人 0) ; 
zero fill: 
do 
LN 
while (--n > 0) ; 
return s; 


} 


这 里 需要 特别 注意 的 是 ， 当 src 的 长 度 (strlen (src) ) 大 于 len 时 ， 也 就 是 src 的 前 len 个 字 节 将 不 包含 hull 字 符 ， 则 它 的 结果 dest 将 不 会 以 null 字 符 结 束 。 因 此 ， 其 结果 dest 将 不 再 是 一 个 字符 串 。 如 果 


不 理解 这 一 点 ， 则 可 能 会 给 程序 带 来 不 必要 的 错误 。 


例如 ， 下 面 的 示例 代码 的 输出 将 不 可 预料 : 


int main (void) 

{ 
char dest[10]; 
char* src = "01234567890"; 
strncpy (dest, src, 10); 
fprintf (stdout, "%s", dest) ; 
return 0; 


由 于 src 的 长 度 大 于 len (在 这 里 strlen (src) 的 实际 长 度 为 11) ， 上 面 的 示例 代码 输出 的 结果 是 不 可 预料 的 ， 很 可 能 不 是 01234567890， 如 图 8-3 所 示 。 


mawei@lamp:~/ 程 序 设计 i/c 
六 件 (E) 编辑 (E) 查看 (V) 搜索 (53) ” 窗 端 (T) 条 助 (H) 
[mawei@lamp cj$ gcc Test.c -0 Test 


[mawei@lamp cl]$ ./Test 
61234567899666 转 


图 8-3 strncpy 函 数 测 试 的 运行 结果 


由 此 可 见 ， 我 们 在 使 用 strncpy 函 数 时 需要 特别 注意 “src 的 长 度 大 于 len” 的 情况 ， 以 避免 一 些 不 必要 的 麻烦 。 


的 字符 串 拷 贝 函数 strlcpy 和 strcpy_s。 其 中 ，strlcpy 由 OpenBSD 的 研发 人 员 Todd C.Miller 和 Theo de Raadt 两 人 设计 ， 被 看 作 是 strncpy 的 安全 版 


最 后 ， 除 strcpy 与 strncpy 函 数 之 外 ， 还 有 两 个 常 
本 ， 但 已 经 被 glibc 库 删除 ， 所 以 在 此 不 建议 使 用 。 


同样 ，strcpy _s 函 数 是 strcpy 的 安全 版 本 ， 属 于 ISO/IEC TR 24731 的 标准 。 但 由 于 strcpy_s 对 (C 语 言 来 说 是 新 的 函数 ， 没 有 受到 广泛 支持 ， 因 此 ， 也 不 建议 使 用 。 


建议 73-2: 区 别 串 拷贝 strcpy 与 内 存 拷贝 nemcpy 


对 于 (语言 的 内 存 拷贝 函数 ，memcpy 函 数 应 该 是 使 用 和 面试 频率 最 高 的 一 个 函数 。 其 函数 原型 的 一 般 格式 如 下 : 


void *memcpy (void *dest, const void *src, size 七 Ilen) ; 


该 函数 表示 从 源 src 所 指 的 内 存 地 址 的 起 始 位 置 开 始 复制 len 个 字 节 到 目标 dest 所 指 的 内 存 地 址 的 起 始 位 置 中 。 如 果 两 个 地 址 存在 重 晋 ， 则 最 终 行为 未 定义 。 


例如 ， 该 函数 在 glibc-2.17 的 memcpy.c 文 件 中 的 定义 如 下 : 


void *memcpy (dstpp, srcpp, len) 
void *dstpp; 
const void *srcpp; 
size 七 len; 
{ 
unsigned long int dstp = (long int) dstpp; 
unsigned long int srcp = (long int) srcpp; 


/* Copy from the beginning to the end. */ 


/* If there not too few bytes to copy, use word copy. */ 
if (len >= OP T THRES) 
{ 
/* Copy just a few bytes to make DSTP aligned. */ 
len -= (-dstp) % OPSIZ; 
BYTE COPY FWD (dstp, srcp, (-dstp) % OPSI2Z) ; 


/* Copy whole pages from SRCP to DSTP by virtual address 
manipulation, as much as possible. */ 

PAGE COPY FWD MAYBE (dstp, srcp, len, len); 

/* Copy from SRCP to DSTP taking advantage of the known 
alignment of DSTP. Number of bytes remaining is put in 
the third argument, i.e. in LEN. This number may vary 
from machine to machine. */ 

WORD COPY FWD (dstp, srcp, len, len); 

/* Fall out and copy the tail. */ 

/* There are just a few bytes to copy. 
Use byte memory operations. */ 

BYTE COPY FWD (dstp, srcp, len) ; 

return dstpp; 


可 以 很 清晰 地 看 出 ， 相 对 其 他 memcpy 函 数 的 实现 ，glibc-2.17 库 对 memcpy 函 数 做 了 许多 优化 处 理 。 首 先 使 用 语句 “if (len>=OP_T_THRES)“ 
来 判断 需要 拷贝 的 字 节 数 是 否 大 于 某 一 临界 值 ， 如 果 大 于 临界 值 ， 则 可 以 使 用 更 加 强大 的 优化 手段 进行 拷贝 。 


(根据 不 同情 况 ，OP_T_THRES 被 定义 为 16 或 者 8) 


这 里 以 “glibc-2.17\sysdeps\i386\memcopy.h” 为 例 ， 字 节 拷 贝 BYTE_COPY_FWD 的 定义 如 下 : 


#define OP T_THRES 8 
#define BYTE COBY FWD (dst bp, src bp, nbytes) 
do { 国 和 
int d0; 
asm volatile (/*Clear the direction flag, so copying goes forward.*/ 
"cld\n" 上 
/* Copy bytes. */ \ 
"rep\n" 
"movsb™" : \ 
"=D" (dst bp) ， "=S" (src bp) , "=c" (_ qo0) \ 
"0" (dst bp) , "1" (src bp) ， "2" (nbytes) 和 
"memory") ; 本 \ 
} while (0) 


可 以 明显 看 出 ,在 BYTE_COPY_FWD 中 很 巧妙 地 利用 了 movsb 指 令 来 实现 字 节 拷贝 。 在 使 用 movsb 指 令 时 ， 需 设置 EDI、ESI、ECX 寄 存 器 的 值 ，EDI 寄 存 器 存放 拷贝 的 目的 地 址 ，ES| 寄 存 器 存放 拷贝 的 
。 完 成 拷贝 之 后 ，EDI 中 的 值 会 保存 到 dst_bp 中 ，ESl 中 的 值 会 保存 到 src_bp 中 。 


源 地 址 ，ECX 为 需要 拷贝 的 字 节 当 


对 于 字 节 块 拷贝 ，WORD_COPY_FWD 的 定义 如 下 : 


#define WORD COPY FWD (dst bp， src bp, nbytes left, nbytes) \ 
go 
{ % 
int _ go0; % 
asm volatile (/*Clear the direction flag, so copying goes forward.*/ 
"cld\n" % 
/* Copy longwords. */ % 
"rep\n" X 
"movsl" : 基 
"sD" (dst bp) ， "=S" (src bp) ， "=e™ ( 30) : 才 
On" (dst Pp) ， ML (Sre bp) , "2" ( (nbytes) / 4) % 
"memory") ; 术 
(nbytes left) = (nbytes) % 4; 只 
} while (0) 
同样 ， 它 利用 了 movsl 指 令 来 实现 4 字 节 拷贝 ， 假 设 movsl 和 movsb 花 费 相 同 的 CPU 时 钟 周期 ， 那 优化 后 的 拷贝 时 间 将 是 原来 的 四 分 之 一 ， 效 益 还 是 相当 可 观 的 。 


如 果 抛 开 函 数 内 部 功能 实现 ， 单 从 表面 上 看 ， 内 存 拷贝 函数 memcpy 与 串 拷贝 函数 strcpy 一 样 ， 都 能 够 实现 对 字符 中 


的 拷贝 ， 如 下 面 的 示例 代码 所 示 : 


int main (void) 
{ 
Char *src="I Love C"; 
char dest[5]; 
memcpy (dest, srct2*sizeof (char) , 4*sizeof (char) ) ; 
// 或 者 memcpy (dest,， src+2, 4) ; 
dest[4]="'\0"; 
printf ("%s", dest) ; 
return 0; 


但 实际 情况 不 是 这 样 的 ， 它 们 之 间 存 在 着 许多 本 质 的 


首先 ， 拷 贝 的 对 象 不 同 。 对 生 
memcpy 函 数 拷贝 结构 体 : 


拷贝 函数 strcpy 而 言 ， 


使 


struct Point 

{ 
int x; 
int y; 

}p={3, 5}; 

int main (void) 

{ 
struct Point pl; 
memcpy (&pl, &p, sizeof (p) ) ; 
printf ("pl.x = %d\npl.y = $d\n", p.x, Pp.y) ; 
return 0; 


此 ， 在 拷贝 字符 


时 ， 我 们 通常 使 


strcpy 函 数 ， 而 在 对 其 他 类 型 


型 的 数据 进行 拷贝 时 ， 则 


memcpy 函 数 。 当 然 ， 在 对 字符 串 进行 拷贝 时 使 用 memcpy 函 数 其 实 也 是 一 个 不 错 的 选择 。 


其 次 ， 搁 贝 的 方法 不 同 。 对 于 串 拷贝 函数 strcpy， 它 不 需要 指定 拷贝 的 长 度 ， 当 遇 到 字符 串 未 尾 的 null (\0) 字符 时 ， 结 束 拷贝 。 因 此 ， 使 用 串 拷贝 函数 进行 拷贝 很 容易 溢出 。 而 对 于 内 存 拷贝 函数 
memcpy， 则 是 根据 其 第 3 个 参数 len 来 决定 复制 的 长 度 。 

除 此 之 外 ， 在 使 用 内 存 拷贝 函数 memcpy 时 ， 需 要 特别 注意 如 下 两 点 。 

首先 ， 如 果 目 标 数 组 dest 本 身 己 有 数据 ， 那 么 在 执行 memcpy 函 数 进 行内 存 拷贝 后 ， 将 履 盖 原 有 数据 (最 多 覆盖 len) 。 如 下 面 的 示例 代码 所 示 : 


int main (void) 

{ 
char src[] = mxxxxni 
char dest[] = "I Love C" 
printf ("拷贝 前 : s\n",， dest) ; 
memcpy (dest, src, strlen (src) ) ; 
Printf ("拷贝 后 : %s\n",， dest) ; 
return 0; 


运行 结果 如 图 8-4 所 示 。 


mawei@lamp:~/ 程 序 设 计 /c 
文件 (F) 编辑 ([E) 查看 (V) 搜索 (S) ”终端 (T) 帮助 (H) 
[mawei@lamp cl]$ gcc Test.c -0 Test 
[mawei@lamp cj]$ ./Test 


捷 贝 前 : I Love C 
括 贝 后 ; **#*#Ve 他 
[mawei@lamp c] 草 国 


图 8-4 示例 代码 的 运行 结果 


因此 ， 如 果 要 追加 数据 ， 则 要 在 每 次 执行 memcpy 函 数 后 将 目标 数组 地 址 增加 到 要 追加 数据 的 地 址 。 


其 次 ，dest 和 src 所 指 的 内 存 区 域 是 可 以 重 到 的。 但 是 ， 如 果 dest 和 src 所 指 的 内 存 区 域 重 于 ， 那 么 这 个 函数 并 不 能 够 确保 src 所 在 重 雪 区 域 在 拷贝 之 前 被 覆盖 ， 其 结果 是 未 定义 的 ， 这 一 点 我 们 将 在 后 面 
详细 阐述 。 


建议 73-3: 避免 strcpy 与 memcpy 函 数 内 存 重 老 


所 谓 的 内 存 重重 ， 简 单 来 讲 就 是 指 拷贝 的 目的 地 址 (dest) 在 源 地 址 (src) 范围 内 ， 即 拷贝 的 目的 地 址 (dest) 和 源 地 址 (src) 有 重 双 部 分 。 我 们 可 以 从 如 下 两 方面 考虑 重 醒 问题 。 


“ 拷贝 的 目的 地 址 (dest) 数据 改 盖 了 源 地 址 (src) 。 


“ 拷贝 的 目的 地 址 (dest) 所 指 的 区 域 本 来 就 是 源 地 址 (src) 的 一 部 分 。 


之 所 以 会 出 现 这 种 重 晋 ， 其 实 原因 很 简单 ， 是 因为 在 许多 函数 库 中 strcpy 和 memcpy 函 数 的 核心 代码 都 是 使 用 “while” 与 “*dest++=*src++” 语 句 完 成 的 ， 并 没有 对 内 存 的 重 赭 进行 处 理 。 下 面 的 示 
例 代 码 演示 了 strcpy 和 memcpy 函 数 最 为 常见 的 实现 方式 : 


Char *Strcpy (char *dest, const char *src) 
{ 
assert (dest! =NULL && src! =NULL) ; 
Char *strDest=dest; 
while ( (*strDest++=*srct+t+) ! ='\0') ; 
return dest; 


void *Memcpy (void *dest, const void *src, size 七 len) 
{ 

assert (dest! =NULL && src! =NULL) ; 

char *tmp dest = (char *) dest; 

char *tmp src = (char *) src; 

while (len --) 

*tmp dest ++ = *tmp src ++; 
return dest; 


对 于 上 面 两 个 函数 实现 方式 ， 相 信 大 家 并 不 陌生 。 不 难看 出 ， 在 函数 Strcpy 和 Memcpy 中 并 没有 对 内 存 重 码 进行 任何 处 理 ， 其 核心 功能 都 是 使 用 简单 的 “while” 与 “dest+ + =*src++” 语 句 来 完成 
的 。 为 了 验证 重 赤 问题 ， 继 续 来 看 下 面 的 测试 代码 : 


int main (void) 

{ 
Char *str="1234567"; 
char *p = (char *) malloc (10) ; 
Memcpy (p, str, strlen (str) ) ; 
printf ("memcpy 前 : p = %s\n",， p) ; 
/* 发 生 重 又 */ 
Strcpy (p+1, p) ; 
printf ("strcpy 后 : P = %s\n", p); 
free (P) ; 
return 0; 


很 明显 ， 在 执行 语句 “Strcpy (p+1，p) ”的 时 候 将 发 生 重 又 。 这 里 又 因为 Strcpy 函 数 是 根据 判断 源 字符 串 中 的 null (\0') 来 结束 复制 的 ， 因 此 程序 会 发 生 崩 演 ， 运 行 结果 如 图 8-5 所 示 。 


maweiclamp: 二 /程序 设计 扩 


文件 (E) 编辑 (E) 站 看 (VM 搜索 (5) : 


终端 (T) 帮助 (H) 


[mawei@lamp c]$ gcc Test,c -0 Test 


[mawei@lamp cj$ ./Test 
memcpyAD :p = 1234567 
眉 销 误 (core dumped) 
[mawei@lamp c]$ 国 


图 8-5 示例 代码 的 运行 结果 


这 个 时 候 有 读者 或 许 会 问 ， 如 果 将 上 面 的 Strcpy 函 数 换 成 Memcpy 函 数 会 怎么 样 呢 ? 带 着 这 个 问题 继续 看 下 面 的 测试 代码 : 


int main (void) 


char *str="1234567"; 
char *p = (char *) malloc (10) ; 
Memcpy (p, str, strlen (str) ) ; 
printf (" onopy: P = %s\n", p) ; 
/* 发 生 重 
Memcpy El Bb, 7 3 
printf ("memcpy 后 : p = Ss\n", p); 
free (p) ; 
return 0; 

} 


同样 ， 在 执行 语句 “Memcpy (p+1，p，7) ”的 时 候 将 发 生 重 玫 。 但 与 Strcpy 函 数 不 同 的 是 ， 因 为 Memcpy 函 数 有 一 个 长 度 参 数 len， 程 序 只 复制 len 个 字 节 就 结束 了 。 因 此 ， 程 


得 到 的 却 是 错误 的 结果 ， 如 图 8-6 所 示 。 


mawei@lamp: 一 /程序 设 mr 


文件 人) 编辑 (E) 查看 (V) 搜索 (S) 


端 ) 帮助 (H] 


[mawei@lamp cl$ gcc Test.c -0 jet 


[mawei@lamp cl]$ ./Test 
1234567 
11111111 


memcpyA :pp : 
memcpy 后 :p 
[mawei@lamp c]$ 目 


图 8-6 示例 代码 的 运行 结果 


针对 上 面 的 内 存 重 苹 问题， 下面 的 示例 代码 演示 了 Memcpy 函 数 解决 内 存 重 芭 问题 的 最 为 常见 的 实现 方式 : 


省, 但 


void *Memcpy (void *dest, const void *src, size t size) 
{ 

assert (dest! =NULL && src! =NULL) ; 

if ( (src<dest) && ( (char*) srctsize > dest) ) 


char *pSrc= (char *) src + size -1; 
char *pDest = (char *) dest + size -1; 
while (size--) 

‘ 


} 


ppest -= = TpSro-— 


else 


char *pSrc= (char *) src 
char *pDest = (char *) dest . 
while (size--) 


*pDest++ = *pSrct++; 
1 


return dest; 


} 


很 显然 ， 改 良 后 的 Memcpy 函 数 通过 语句 


“if ( (src<dest) && ( (char*) src+size>dest) ) ”考虑 到 重 又 的 问题 ， 所 以 能 够 得 到 正确 的 运行 结果 ， 如 图 8-7 所 示 。 


maweiG@lamp :一 /程序 设计 / 


芯 件 (F】 编辑 (E) 查看 (VW) 摸索 (S) ”终端 TIT) 末 助 
[mawei@lamp cj$ ./Test 


memcpyAii :p = 1234567 


memcpy 后 :PP = 11234567 
[mawei@lamp c]$ 国 


8-7 ”示例 代码 的 运行 结果 (改良 后 的 Memcpy) 


当然 ， 除 上 面 改良 的 Memcpy 函 数 之 外 ， 标 准 库 中 的 memmove 函 数 也 为 我 们 提供 了 更 好 的 解决 方案 ， 用 于 处 理 重生 区 域 ， 其 函数 原型 的 一 般 格式 如 下 : 


void *memmove (void *dest, const void *src, size t len ) ; 


其 中 ， 函 数 memmove 与 函数 memcpy 在 功能 上 大 致 相同 ， 一 样 都 是 从 源 src 所 指 的 内 存 地 址 的 起 始 位 置 开 始 拷贝 len 个 字 节 到 目标 dest 所 指 的 内 存 地 址 的 起 始 位 置 中 。 


不 同 的 是 ， 当 源 src 和 目标 dest 所 指 内 存 区 有 重 又 时 ， 相 比 函 数 memcpy， 函 数 memmove 能 提供 正确 的 保证 : 保证 能 将 源 src 所 指 内 存 区 的 前 len 个 字 节 正确 拷贝 到 目标 dest 所 指 内 存 中 。 当 然 ， 当 源 src 
地 址 比 目 标 dest 地 址 低 时 ， 两 者 结果 一 样 。 


例如 ，memmove 函 数 在 glibc-2.17 的 memmove.c 文 件 中 的 定义 如 下 : 


#ifndef al 

#define al dest /* First arg is DEST. */ 
#define alconst 

#define a2 src /* Second arg is SRC. */ 
#define a2const const 

#undef memmove 

#endif 

#if ! defined (RETURN) || ! defined (rettype) 
#define RETURN (s) return (s) /* Return DEST. */ 
#define rettype void * 

#endif 


#ifndef MEMMOVE 
#define MEMMOVE memmove 
#endif 
rettype 
MEMMOVE (al, a2, len) 
alconst void *al; 
a2const void *a2; 
size t len; 
{ 
unsigned long int dstp (long int) dest; 
unsigned long int srcp (long int) src; 
/* This test makes the forward copying code be used whenever possible. 
Reduces the working set. */ 
if (dstp - srcp >= len) /* *Unsigned* compare! */ 
{ 


/* Copy from the beginning to the end. */ 
#if MEMCPY OK FOR FWD MEMMOVE, 
dest = memcpy (dest, src, len); 
#else 
/* If there not too few bytes to copy, use word copy. */ 
if (len >= OP_T THRES) 
{ 

/* Copy just a few bytes to make DSTP aligned. */ 

len -= (-dstp) % OPSIZ; 

BYTE COPY FWD (dstp, srcp, (-dstp) % OPSI2) ; 

/* Copy whole pages from SRCP to DSTP by virtual 

address manipulation, as much as possible. */ 

PAGE COPY FWD MAYBE (dstp, srcp, len, len) ; 

/*Copy from SRCP to DSTP taking advantage of the known 
alignment of DSTP. Number of bytes remaining is put 
in the third argument, i.e. in LEN. This number may 
vary from machine to machine. */ 

WORD COPY FWD (dstp, srcp, len, len) ; 

/* Fall out and copy the tail. */ 


/* There are just a few bytes to copy. Use byte 
memory operations. */ 
BYTE COPY FWD (dstp, srcp, len) ; 
#endif /* MEMCPY OK FOR FWD MEMMOVE */ 
} 
else 
{ 
/* Copy from the end to the beginning. */ 
srcp += len; 
dstp += len; 
/* If there not too few bytes to copy, use word copy. */ 
if (len >= OP T_THRES) 
{ 

/* Copy just a few bytes to make DSTP aligned. */ 

len -= dstp % OPSIZ; 

BYTE COPY BWD (dstp, srcp, dstp % OPSIZ) ; 

/*Copy from SRCP to DSTP taking advantage of the known 
alignment of DSTP. Number of bytes remaining is put 
in the third argument, i.e. in LEN. This number may 
Vary from machine to machine. */ 

WORD COPY BWD (dstp, srcp, len, len); 

/* Fall out and copy the tail. */ 

} 
/* There are just a few bytes to copy. Use byte 
memory operations. */ 
BYTE COPY BWD (dstp, srcp, len) ; 
} 
RETURN (dest) ; 
} 
#ifndef memmove 
libc higdden builtin def (memmove) 
#endif 


从 上 面 的 源 代 码 实 现 中 不 难 发 现 ， 其 实现 思想 与 上 面 改良 后 的 Memcpy 函 数 相似 。 因 此 ， 如 果 能 确保 进行 拷贝 操作 的 内 存 区 域 没有 任何 重 晋 ， 可 以 直接 用 memcpy 函 数 ;如果 不 能 保证 是 否 有 重 
了 确保 复制 的 正确 性 ， 必 须 用 memmove 函 数 。 


最 
过 


建议 73-4: 区 别 字 符 串 比较 与 内 存 比较 


对 于 (语言 中 的 字符 串 比 较 ，strc 


mp 


函数 可 以 按照 字典 顺序 逐个 比较 两 个 字符 串 中 对 应 的 字符 ， 字 符 大 小 按照 AsClI 码 值 确 定 。 其 中 ， 当 字符 串 s1 小 了 


等 于 字符 串 s2 时 ， 函 数 将 返回 0; 当 字符 串 s1 大 于 字符 串 s2 时 ， 函 数 将 返回 大 于 0 的 值 。 该 函数 原型 的 一 般 格 式 如 下 : 


字符 串 s2 时 ， 函 数 将 返回 


小 于 0 的 值 ， 当 字符 串 s1 


int strcmp (const char *sl, co 


nst char > s2) ; 


例如 ，strcemp 函 数 在 glibc-2.17 的 strcemp.c 文 件 中 的 定义 如 下 : 


int strcmp (pl, p2) 
Const char *pl; 
Const char *p2; 


register const unsigned char *sl 
register const unsigned char *s2 


unsigned char cl, c2; 


do 
{ 
cl = (unsigned char) *sl+t+; 
c2 = (unsigned char) *s2++; 
if (cl == '\0') 
et Sl = C2 
while (cl = c2) ; 


return cl - c2; 


(const unsigned char *) 
(const unsigned char *) 


pl; 
P2; 


从 上 面 的 示例 代码 中 不 难看 出 strcmp 函 数 的 实现 精妙 之 处 ， 该 函数 首先 使 
将 存在 两 种 情况 : 第 一 种 情况 是 “c1 不 等 


需要 说 明 的 是 ， 与 strcpy 函 数 一 样 ，strcmp 函 数 也 是 一 个 典型 的 不 受 限制 函数 。 


了 两 个 寄存 器 变量 ， 
FF \0” ， 在 这 种 情况 下 就 会 不 满足 “c1= =c2” 这 个 条 件 ， 退 出 循环 ; 第 二 种 情况 是 “c1 也 等 于 \0” ， 此 时 程序 将 满足 “c1==\0” 的 条 件 ， 退 出 程序 。 


然后 又 使 


了 两 个 判断 来 确定 循环 是 否 继续 。 之 所 以 使 


两 个 判断 ， 是 


因 


此 ， 在 使 


该 函数 的 时 候 ， 需 要 特别 注意 字符 串 未 


为 如 果 “c2==\0”， 那 么 c1 


尾 的 null (\0') 字符 。 例 如 ， 下 面 示例 代码 中 的 三 组 比较 看 似 相 


了 
， 


1o'); 


等 ， 实 际 上 都 是 不 相等 的 : 
/* 第 一 组 比较 : sl 与 52 没有 以 '\0' 结 束 */ 
char s1[] = {'h’', 'e', '1', "1 
har s2l] = hr "ely TL" I 
if (! strcmp (sl, s2) ) 


/ 兴 炎 风光 六 次 六 次 交 奖 大 了/ 


} 
/* 第 二 组 比较 : s3 没 有 以 '\0' 结束 */ 


char 83[] = {hs e's ‘L's 1? 
char s4[] = {'h', 'e', 
s4) ) 


if (! strcmp (s3, 
{ 


/ 兴 光 交大 次 六 次 六 次 交 六 闪 交 了/ 


} 
/* 第 三 组 比较 : s5 没 有 以 '\0' 结 束 */ 


10')}; 


Tt 1 ‘or, NO}; 


dar e351] = my 0. tL 
char s6[] = "hello"; 
if (! strcmp (s5, s6) ) 
{ 
/洋溢 粹 炎 碳 交 奖 光 炎 太 关 克 / 
} 
除 strcemp 函 数 之 外 ， 还 可 以 使 用 strncmp 函 数 来 比较 字符 串 s1 和 s2 的 前 n 个 字符 。 该 函数 原型 的 一 般 格式 如 下 : 


int strncmp (const char *sl, 


相对 于 strcemp 函 数 ，strncmp 函 数 指定 比较 n 个 字符 。 也 就 是 说 ， 如 果 字符 


const char *s2, 


size t n) 


0 的 值 ; 如 果 字 符 串 s1 的 前 n 个 字符 小 了 


F 字 符 串 s2 的 前 n 个 字符 ， 函 数 将 返 


s1 与 字符 重 


回 


小 于 0 的 值 。 例 如 


， 该 函数 在 glibc-2.17 的 strncmp.c 文 件 中 定义 如 下 : 


Ss2 的 前 n 个 字符 相同 ， 函 数 返 回 值 为 0 如果 字 符 串 s1 的 前 n 个 字符 大 于 字符 串 s2 的 前 n 个 字符 ， 函 数 将 返回 大 于 


#undef strncmp 

#ifndef STRNCMP 

#define STRNCMP strncmp 
#endif 


int STRNCMP (const char *xs1， const char *s2, size t n) 
{ 
unsigned char cl = '\0'; 
unsigned char c2 = '\0'; 
if (n >= 4) 
{ 
sise t nd = 1 3 Bs 
do 
{ 
cl = (unsigned char) *sl++; 
c2 = (unsigned char) *s2++; 
if (cl == '\0' || cl ! = c2) 
retaurn go - c2; 
cl = (unsigned char) *sl++; 
c2 = (unsigned char) *s2++; 
if (cl = '\0' || cl ! = c2) 
return cl - c2; 
cl = (unsigned char) *sl++; 
c2 = (unsigned char) *s2++; 
if (cl == '\0' || cl ! = c2) 
return ol = ©2; 
cl = (unsigned char) *sl++; 
c2 = (unsigned char) *s2++; 
if (cl = '\0' || cl ! = c2) 
return cl - c2; 
} while (--n4 > 0); 
n &= 3; 
} 
while (n > 0) 
§ 
cl = (unsigned char)  *S1++; 
c2 = (unsigned char) *s2++; 
if (cl == '\0' || cl ! = c2) 
retarn el - c2; 
es 


} 


return cl - c2; 


函数 的 调 


示例 如 下 面 的 代码 所 示 : 


char *sl="Hello, C"; 

char *s2="Hello, C++"; 

if (! strncmp (sl, s2, 5) ) 
{ 


/ 炎 闪 炎 六 交 磋 次 六 次 闪 交 交大 炎 交火 交 洋 六 大 大大/ 


前 面 阐述 了 两 个 最 常用 的 字符 串 比较 函数 strcmp 和 strncmpP， 接 下 来 ， 我 们 继续 看 内 存 比较 函数 memcmp， 该 函数 原型 的 一 般 格 式 如 下 : 


int memcmp (const void *sl, const void *s2, Size 七 河 ) ; 


相对 于 strncmp 函 数 ，memcmp 函 数 


函数 在 glibc-2.17 的 memcmp.c 文 件 中 的 定义 如 下 : 


于 比较 内 存 区 域 sS1 和 s2 的 前 n 个 字 节 。 同 理 ， 当 s1 小 于 s2 时 ， 函 数 返 回 小 于 0 的 值 ; 当 s1 等 于 s2 时 ， 函 数 返回 0; 当 s1 大 于 s2 时 ， 函 数 返回 大 于 0 的 值 。 例 如 ， 该 


int memcmp (sl, s2, len) 
const _ptrt sl; 
const _ ptrt s2; 
size t len; 


op t a0; 
op t b0; 
long int srcpl 


(long int) sl; 


long int srcp2 = (long int) s2; 


op 七 res; 
if (len >= OP T THRES) 
§ 


/* There are at least some bytes to compare. No need to test 


for LEN == 0 in th: 


is alignment loop. */ 


while (srcp2 % OPSIZ ! = 0) 


{ 


srcpl += 1 


srcp2 += 1; 


res = a0 - 
if (res ! 


( (byte *) srcpl) [0]; 
( (byte *) srcp2) [0]; 


“bo0; 
= 0) 


return res; 


len -= 1; 


/* SRCP2 is now aligned for memory operations on ‘op t'. 


SRCP1 alignment 
aligned compare 

if (srcpl 当 OPSIZ 
res = 


determines if we can do a simple, 
or need to shuffle bits. */ 
一 0) 


memcmp_common alignment (srcpl, srcp2, len / OPSIZ) ; 


else 
res = 


memcmp_ not common alignment (srcpl, srcp2, len / OPSI2Z) ; 


i (res f= 0 
return res 


/*Number of bytes remaining in the interval[Ohttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/..O0PSI2-1]. */ 
srcpl += len & -OPSIZ2; 
srcp2 += len & -OPSIZ; 


len $= OPSIZ; 


/*There are just a few bytes to compare.Use byte memory operations. */ 


rcp1) [0]; 


rcp2) [0]; 


while (len ! = 0) 

{ 
a0 = ( (byte *) s: 
b0= ( (byte *) s 
srcpl += 1; 
srcp2 += 1; 
res = a0 - b0; 
if (res ! = 0) 

return res; 

len -= 1; 

} 

return 0; 


如 果 单 从 对 字符 串 的 比较 来 看 ，m 


char *sl="Hello, C"; 
Char *s2="Hello, Ct+"; 
if (! memcmp (sl, s2, 5) ) 


/ 玉 炎 炎 太 痰 六 次 六 交 闪 次 交 太 交 炎 交 六 六 溢 六 大 大大/ 


emcmp 函 数 与 strncmp 函 数 极其 相似 ， 如 下 面 的 示例 代码 所 示 : 


当然 ， 它 们 之 间 也 存在 着 许多 本 质 


(1) 比较 的 对 象 不 同 


对 字符 串 比较 函数 strcmp 与 strncmp 而 言 ， 它 只 能 比较 字符 串 ;而 对 内 存 比较 函数 memcmp 而 言 ， 它 可 以 比较 任意 对 象 ， 例 如 字符 数组 、 整 型 、 结 构 体 等 。 下 | 


来 比较 两 个 结构 体 : 


回 


的 示例 代码 演示 了 使 用 memcmp 函 数 


struct Point 
{ 
int x; 
Lat Ys 
}p={3, 5}; 
int main (void) 
{ 
struct Point pl={3, 5}; 


if (! memcmp (&p, &pl, sizeof (p) ) ) 


{ 
printf ("p=—=p1") ; 


return 0; 


此 ， 在 比较 字符 串 时 ， 通 常 都 使 


(2) 比较 的 方法 不 同 


strcmp 冰 数 是 按照 字 节 进行 比较 的 ， 并 


strcmp 与 strncmp 函 数 ， 而 在 对 其 他 类 型 的 数据 进行 比较 时 ， 则 


memcmp 函 数 。 当 然 ， 对 字符 串 进行 比较 使 F 


只 要 其 中 任意 一 个 字符 串 指针 在 前 进 过 程 中 遇 到 null (\0 ) 结束 符 ， 将 终止 比较 (即使 长 度 参数 n 还 未 为 0) 。 


memcmp 函 数 不 会 在 遇 到 字符 串 结 


尾 符 null (\0') 处 停 下 来 ， 会 继续 比较 null (\0 ) 后 面 的 内 存单 元 。 如 下 面 的 示例 代码 所 示 : 


memcmp 函 数 其 实 也 是 一 个 不 错 的 选择 。 


比较 的 过 程 中 会 检查 是 否 出 现 了 null (^\0') 结束 符 ， 一 旦 任意 一 个 字符 串 指针 在 前 进 过 程 中 遇 到 null (\0 ) 结束 符 ， 将 终止 比较 。 同 理 ，strncmp 函 数 也 是 一 


char *sl="\x80\x10"; 
Char *s2="\x80\x10\x00\x10"; 
if (! strncmp (sl, s2, 4) ) 


printf ("strncmp: sl==s2") ; 


} 
if (! memcmp (sl, s2, 4) ) 
{ 


Printf ("memcmp: sl==s2") ; 


在 上 面 的 示例 代码 中 ,判断 语句 “if (! strncmp (s1，s2，4) ) ”的 条 件 成 立 ， 程 序 最 后 将 输出 结果 为 “strncmp: s1==s2”。 这 是 为 什么 呢 ? 


甘 


实 原因 很 简单 ， 因 为 “0x00” 表 示 结 


strncmp 函 数 最 后 就 返回 0。 


尾 字符 null (\0') 。 所 以 ， 对 字符 串 “X80\x10\x00\x10” 而 言 ，strncmp 沙 数 实际 上 只 判断 是 否 含有 “\x80\x10” 字 符 


。 这 里 的 s1 为 ^x80\x10”， 所 以 


尾 符 null (\0') 就 会 停止 比较 ， 而 memcmp 函 数 是 基于 内 


很 显然 ， 这 样 的 结果 肯定 不 对 的 ， 对 这 种 情况 我 们 就 需要 使 用 memcmp 函 数 进行 比较 了 。 由 此 可 见 ， 函 数 strcemp 与 strncemp 在 遇 到 字符 串 结 
存 进行 比较 的 ， 在 指定 比较 的 内 存 长 度 内 ， 不 会 因为 遇 到 任何 字符 而 停止 比较 。 也 正 因为 如 此 ， 在 使 用 memcmp 函 数 比较 字符 串 时 就 要 保证 长 度 参数 不 能 超过 最 短 字符 串 的 长 


的 。 


建议 73-5: 避免 strcat 国 数 发 生 内 人 存 重 考 与 溢出 


在 对 字符 串 的 处 理 中 ， 函 数 strcat 可 以 把 src 指 向 的 字符 串 (包括 终止 的 空 字符 null (\0') ) 的 副本 添加 到 dest 指 向 的 字符 串 末 
数 原型 的 一 般 格式 如 下 : 


尾 。 同 时 ，src 的 第 一 个 字符 覆盖 dest 未 


度 ， 否 则 结果 有 可 能 是 错误 


尾 的 空 字符 null (\0') 。strcat 函 


char *strcat (char *dest, Const char *src) ; 


EE 
=] 


其 中 ，dest 参 数 必须 是 一 个 字符 数组 或 者 是 一 个 指向 动态 分 配 的 内 存 的 数组 指针 ， 不 能 使 常量 。 例 如 ， 该 函数 在 glibc-2.17 的 strcat.c 文 件 中 的 定义 如 下 : 


字符 


Char *strcat (dest, src) 
Char *dest; 

const char *src; 

{ 
char *sl = dest; 
const char *s2 = src; 


char c; 

/* Find the end of the string. */ 
do 

交涉 相 

while (c!= '\0'); 


so we can increment 
4 


/* Make S1 point before the next character, 
让 while memory is read (wins on pipelined cpus) . 
S1 -= 2; 
do 
C = *S2++; 
*++sl1 = Cj; 
i 
while (c != '\0'); 
return dest; 


在 使 


首先 ， 必 须 避 免 src 和 dest 所 指 内 存 区 域 发 生 内 存量 


结果 是 未 定义 的 。 如 下 面 的 示例 代码 所 示 : 


E 友 的 情况 ， 否 则 


Char *sl="1234567"; 

Char *s3 = (char *) malloc (30) ; 
strcpy (s3, s1) ; 

Char *s2=s3+2; 


printf ("strcat 前 : s3 = %s\n", s3) ; 
printf ("strcat 前 : s2 = %s\n", s2); 
/* 发 生 重 垒 */ 

streat (a3 a2) 3 

free (s3) ; 


很 显然 , 语句 “strcat (S3，s2) ”发 


内 存 


其 结果 将 是 未 定义 。 因 此 ， 应 该 避免 这 种 情况 发 生 。 


其 次 ， 必 须 保证 dest 有 足够 的 空间 来 容纳 src 的 字符 串 ， 从 而 避免 发 生 缓冲 区 溢出 。 如 下 面 的 示例 代码 所 示 : 


char sl1[9]="hello"; 
char s2[6]="world"; 
went (ol 站 2 入 二 


(注意 ， 原 来 s1 后 面 的 null (\0') 被 添加 的 字符 


HI 


在 上 面 的 示例 代码 中 ， 在 调 
null (\0') 仍 保留 ) 。 但 问题 出 来 了 ， 


strcat 函 数 后 ， 缓 冲 区 s2 的 内 容 不 会 发 生 任何 变化 ， 同 时 将 s2 的 字符 串 追 加 到 s1 后 
为 s1 的 空间 不 足 ， 从 而 导致 在 数据 追加 时 发 生 溢出 。 


由 此 可 见 ， 函 数 strcat 和 strcpy 都 有 同样 的 问题 ， 因 此 调用 者 必须 确保 dest 缓 冲 区 足够 大 ， 能 够 容纳 src 的 字符 串 ， 否 则 会 导致 缓冲 错误 。 如 下 面 的 示例 代码 所 示 : 


区 溢 册 


s2 的 第 一 个 字符 覆盖 掉 ，s2 后 面 


的 


Char *s1="Hello，"; 

char *s2="World"; 

Char *s3= (char*) malloc (strlen (sl1) +strlen (s2) +1) ; 
if (s3 == NULL) 

1 /六 关 六 炎 赤 类 赤 炎 天 灾 灾 光 天 灾 福光 天 灾 福 灶 夫 灾 灾 人 

Strepy (3, 31) 3 
strcat (s3, s2) ; 
Brirtt ("GL tA 
free (s3) ; 

return 0; 


SSWRn SB3) : 


除了 上 面 的 解决 方案 外 ， 还 可 以 通过 调 


strncat 函 数 来 减少 这 种 缓冲 区 溢出 情况 的 发 生 ， 该 函数 原型 的 一 般 格式 如 下 : 


char *strncat (char *dest, const char *src, size t n ) ; 


| 


EF 


原理 很 简单 ，strncat 函 数 通 过 参数 n 指 定 一 个 长 度 ， 可 以 很 容易 地 避免 发 生 缓冲 区 溢出 错误 。 值 得 注意 的 是 ， 这 个 参数 n 的 含义 和 strncpy 函 数 的 参数 n 不 同 ， 它 并 不 是 缓冲 


区 dest 的 长 度 ， 而 是 表示 最 多 


从 src 缓 冲 区 中 取 n 个 字符 (不 包括 结尾 的 null (\0') ) 连接 到 dest 后 面 。 如 果 src 中 前 n 个 字符 没有 出 现 null (\0') ， 则 取 前 n 个 字符 再 加 一 个 null (\0') 连接 到 dest 后 
dest 缓 冲 区 以 null (\0') 结尾 ， 这 一 点 又 和 strncpy 函 数 不 同 ，strncpy 函 数 并 不 保证 dest 缓 冲 区 以 null (\0') 结尾 。 因 此 ， 提 供给 strncati 
节 ， 才 能 保证 不 被 溢出 。 其 中 ，strncat 函 数 在 glibc-2.17 的 strncat.c 文 件 中 的 定义 如 下 : 


日 


。 也 就 是 说 ，strncat 
函数 的 dest 缓 冲 区 的 大 小 至 少 应 该 是 strlen (dest) +n+1 个 字 


函数 总 是 保证 


#ifndef STRNCRAT 

# undef strncat 

# define STRNCAT strncat 
#endif 


Char *STRNCAT (char *sl, Const char *s2, size t n) 
{ 

Char c; 

char *s = sl; 

/* Find the end of Sl. */ 

do 

二 

while (c!= '\0'); 


SO we can increment 
wy 


/* Make S1 point before next character, 
it while memory is read (wins on pipelined cpus) . 


sizet n4 = nn >> 2; 


o 
{ 
C = *Ss2++; 
#1 = 
if (c= '\0') 
return s; 
CG = ve2tt; 
x++S1 = C; 
if (c= '\0') 
return s; 
C = *s2++; 
tL = 如 
if (c= '\0') 
return s; 
C = *92++; 
*++B1 三 如 
if (c= '\0') 
return s; 
} while (--n4 > 0) ; 
n &= 3; 
E 
while (n > 0) 
{ 
= er 
#8al 二 CQ: 
if (c= '\0') 
return s; 
We 
} 
if (c!= "'\0') 
*++S1 = '\0'; 
return s; 


最 后 需要 说 明 的 是 ， 对 于 strncat 函 数 同样 需要 注意 内 存 重 二 情况 的 发 生 。 


建议 74: 说 什 strtok 函 数 的 不 可 重 入 性 


对 于 字符 


分 割 函 数 strtok， 相 信 大 家 并 不 陌生 ， 该 函数 的 功能 很 大 ， 争 议 也 很 大 。 函 数 原型 的 一 般 格 式 如 下 : 


Char *strtok (char *s, Const char *delim) ; 


其 中 ，tok 是 Token 的 缩写 ,分 割 出 来 的 每 一 段 字 符 串 称 为 一 个 Token。 参 数 s 是 待 分 割 的 字符 


需要 特别 说 明 的 是 ， 首 次 调用 strtok 函 数 时 ，s 指 


向 要 分 解 的 字符 串 ， 之 后 再 次 调 有 


时 要 把 s 设 成 NULL。 也 就 是 说 ， 在 首次 调 


，delim 是 分 隔 符 。 可 以 指定 一 个 或 多 个 分 隔 符 ，strtok 遇 到 其 中 任何 一 个 分 隔 符 就 会 分 割 字符 串 。 


strtok 遂 数 时 ， 首 先 过 滤 掉 所 有 属于 分 割 字符 捉 集合 中 的 字符 ， 然 后 进行 


凯 J 


日 


扫描 并 将 之 后 础 到 的 属于 分 割 字符 串 集合 中 的 字符 使 
为 第 一 个 参数 ， 从 而 不 断 取得 下 一 个 Token。 


空 结束 符 null (\0 ) 来 蔡 代 ， 这 样 就 可 以 使 


看 下 面 这 段 示例 代码 : 


该 函数 返回 的 值 来 直接 读 取 第 一 个 Token。 之 后 获取 剩 下 的 Token， 此 时 直接 向 strtok 函 数 传递 NULL 作 


int main (void) 


{ 


0: root: /root: /bin/bash: "; 


char str[] We KY 
Char *token; 
token = strtok (str, 


printf ("%s\n", token) ; 


while ( (token = strtok (NULL, ") ) != NULL) 
‘ 
Printf ("%s\n", token) ; 
return 0; 
i 
很 显然 ， 程 序 通过 冒号 “: ”分 隔 符 把 字符 串 “root: x: : 0: root: /root: /bin/bash: ”分 隔 成 “root”“x” “0” “root”“/root”“/bin/bash”“” 等 几 个 Token ( 空 字 符 串 的 Token 


被 忽略 ) 。 第 一 次 调用 时 要 把 字符 串 首 地 址 传 给 strtok 的 第 一 个 参数 ， 以 后 每 次 调用 时 只 要 传 NULLs 
如 图 8-8 所 示 。 


给 第 一 个 参数 就 可 以 了 ，strtok 函 数 自己 会 记 住 上 次 处 理 到 字符 串 的 什么 位 置 。 上 面 示例 代码 的 运行 结果 


文件 (F) 编辑 (E) 坦 看 (V) 搜索 (5) 


EEl DT ed 


终端 (T) 带 助 (H) 


[mawei@lamp c]$ gcc -g Test.c -0 Test 
[mawei@lamp cj$ ./Test 
root 


X 
0 


root 

/root 

/bin/bash 
[mawei@lamp c]$ 是 


如 果 使 


跟踪 结果 所 示 : 


gdb 来 跟踪 这 段 示 例 代 码 ， 会 发 现 str 字 符 串 被 strtok 不 断 修改 ， 每 次 调 


图 8-8 strtok 元 数 示例 代 码 的 运行 结果 


strtok 函 数 把 str 中 的 一 个 分 隔 符 修改 成 null (\0 ) ， 分 割 出 一 个 小 字符 串 ， 并 返回 这 个 小 字符 串 的 首 地 址 。 如 下 面 的 


[mawei@lamp c]$ gcc -9g Test.c -o Test 
[mawei@lamp c]$ gdb Test…… 
(gdb) start.…….. 


9 


char str[] = "root: x: : 0: root: /root: /bin/bash: "; 


Missing separate debuginfos, use: debuginfo-install glibc-2.12-1.7.e16.i686 (gdb) display str 


1: str = "? \004\b\000A\202\004\b\000\364\237\201\000\260\204\004\b@\203\004\b\273\204\004\b" (gdb) n 
tl token = strtok (str, ": "); 

1: str = "root: x: : 0: root: /root: /bin/bash: " (gdb) 

12 Printf ("%s\n", token) ; 

1: str = "root\000x: : 0: root: /root: /bin/bash: " (gdb) 

root 

13 while ( (token = strtok (NULL, ": ") ) ! = NULL) 

1: str = "root\000x: : 0: root: /root: /bin/bash: " (gdb) 

15 printf ("%s\n", token) ; 

1: str = "root\000x\000: 0: root: /root: /bin/bash: " (gdb) 

x 

13 while ( (token = strtok (NULL, ": ") ) ! = NULL) 

1: str = "root\000x\000: 0: root: /root: /bin/bash: " (gdb) 

于 printf ("%s\n", token) ; 

1: str = "root\000x\000: 0\000root: /root: /bin/bash: " (gdb) 

0 

13 while ( (token = strtok (NULL, ": ") ) ! = NULL) 

1: str = "root\000x\000: 0\000root: /root: /bin/bash: " (gdb) 
printf ("%s\n", token) ; 

1: str = "root\000x\000: 0\000root\000/root: /bin/bash: " (gdb) 
root 

13 while ( (token = strtok (NULL, ": ") ) ! = NULL) 

1: str = "root\000x\000: 0\000root\000/root: /bin/bash: " (gdb) 

15 printf ("%s\n", token) ; 

1: str = "root\000x\000: 0\000root\000/root\000/bin/bash: " (gdb) 
/root 

13 while ( (token = strtok (NULL, ": ") ) ! = NULL) 

1: str = "root\000x\000: 0\000root\000/root\000/bin/bash: " (gdb) 
15 printf ("%s\n", token) ; 

1: str = "root\000x\000: 0\000root\000/root\000/bin/bash\000" (gdb) 
/bin/bash 

13 while ( (token = strtok (NULL, ": ") ) ! = NULL) 

1: str = "root\000x\000: 0\000root\000/root\000/bin/bash\000" (gdb) 
nly return 0; 

1: str = "root\000x\000: 0\000root\000/root\000/bin/bash\000" (gdb) 
18 } 

1: str = "root\000x\000: 0\000root\000/root\000/bin/bash\000" 


由 此 可 见 ，strtok 函 数 的 作用 是 分 解 字 符 


这 里 出 现 问 题 了 ， 前 面 说 过 “第 一 次 调 


时 要 把 字符 串 首 地 址 传 给 strtok 的 第 一 个 参数 ， 以 后 每 次 调用 时 只 要 传 NULL 给 第 
那么 为 什么 传递 一 个 NULL 就 可 以 获取 下 一 个 Token? 返回 的 指针 值 一 定 又 移 到 了 下 一 个 地 方 (上 一 个 Token 后 的 一 个 位 置 ) ? 如 果 每 次 都 从 头 开始 扫描 ， 如 何 知 道 在 何 处 停 下 ? 


。 所 谓 的 分 解 ， 即 它 不 会 生成 新 的 字符 串 ， 而 是 在 源 字 符 串 s 所 指向 的 内 容 上 做 些 修改 。 


其 实 原理 很 简单 ，strtok 函 数 使 用 了 一 个 静态 变量 ， 通 过 对 该 静态 变量 的 操作 来 保证 对 指针 的 修改 (基于 上 一 个 Token 的 记录 ) 。 除 此 之 外 ，strtok 函 数 另 一 个 不 太 好 的 地 方 是 它 修改 了 原 字符 


应 位 置 蔡 换 为 null (\0') ， 这 也 是 为 什么 该 函数 的 第 一 个 参数 类 型 不 是 “const char*” 的 原因 。 例 如 ， 该 函数 在 glibc-2.17 的 strtok.c 文 件 中 的 定义 如 下 : 


一 个 参数 就 可 以 了 ，strtok 函 数 自己 会 记 住 上 次 处 理 到 字符 串 的 什么 位 置 ”， 


， 将 对 


static char *olds; 
char *strtok (s, delim) 


Char *s; 
const char *delim; 


char *token; 
if (s 一 NULL) 
s = olds; 
/* Scan leading delimiters. */ 
s += strspn (s, delim) ; 
if (*s == '\0') 
{ 
olds = s; 
return NULL; 


E 
/* Find the end of the token. */ 
token = s; 
s= strpbrk (token, delim) ; 
if (s = NULL) 
/* This token finishes the string. */ 
olds = _ rawmemchr (token, '\0'); 
else 
{ 
/* Terminate the token and make OLDS point past it. 
xs = '\0'; 
olds =s+1; 
} 


return token; 


元 


从 上 面 的 strtok 函 数 实现 代码 中 可 以 看 出 ，strtok 函 数 通过 使 用 全 局 的 静态 变量 olds 来 记 住 上 次 处 理 到 字符 串 中 的 什么 位 置 ， 所 以 我 们 不 需要 每 次 调用 时 都 把 字符 串 中 的 当前 处 理 位 置 传 给 strtok 函 数 。 


也 正 是 因为 strtok 函 数 使 用 了 全 局 的 静态 变量 olds， 从 而 导致 该 函数 是 不 可 重 入 的 ， 而 且 也 不 是 线程 安全 的 。 因 此 ， 为 了 解决 该 函数 的 不 可 重 入 性 ， 产 生 了 该 函数 的 可 重 入 版 本 : strtok_r 函 数 (多 出 的 
一 个 r， 即 reentrant (可 重 入 ) ) 。 该 函数 不 属于 C 标 准 库 ， 是 在 POSIX 标 准 中 定义 的 ， 在 glibc-2.17 的 strtok_r.c 文 件 中 的 定义 如 下 : 


Char * strtok r (char *s, const char *delim, char **save_ ptr) 
{ 

char *token; 

if (s = NULL) 

Ss = *save ptr; 

/* Scan leading delimiters. */ 

s += strspn (s, delim) ; 

if (*s == "'\0') 


*save ptr = s; 
return NULL; 


} 
/* Find the end of the token. */ 
token = s; 
s= strpbrk (token, delim) ; 
if (s = NULL) 
/* This token finishes the string. */ 
*save ptr = rawmemchr (token, '\0'); 
else 
{ 
/* Terminate the token and make *SAVE PTR point past it. */ 
xs = I\0'; 
*oave ptr = § + 所 
} 


return token; 


从 上 面 的 代码 中 不 难看 出 ， 相 对 于 strtok 函 数 ，strtok_r 函 数 没有 使 用 全 局 静态 变量 ， 调 用 者 需要 自己 分 配 一 个 指针 变量 来 维护 字符 串 中 的 当前 处 理 位 置 ， 每 次 调用 时 把 这 个 指针 变量 的 地 址 传 给 
strtok _r 的 第 三 个 参数 ， 告 诉 strtok_r 从 哪里 开始 处 理 ，strtok _r 返 回 时 再 把 新 的 处 理 位 置 写 回 到 这 个 指针 变量 中 。 调 用 示例 如 下 面 的 代码 所 示 : 


int main (void) 


char buffer[]=" 从 明天 起 ， 做 一 个 幸福 的 人 ; 喂 马 ， 劈 上 业 ， 周 游 世界 ; 从 明天 起 ， 关 心 粮食 和 蔬菜 ; 
我 有 一 所 房子 ， 面 朝 大 海 ， 春 暖 花 开 "; 

char *buf=buffer; 

char *token[30]; 

char *ptrl=NULL; 

char *ptr2=NULL; 

int i=0; 

int j=0; 

while ( (token[i]=strtok r (buf, "; ", &ptr1) ) ! =NULL) 

{ 


printf ("*%d: %s\n", i, token[i]) ; 
buf=token [i]; 


while ( (token[j]=strtok r (buf, ", ", &ptr2) ) ! =NULL) { 
printf ("----%d: $s\n", j, token[j]) ; 
可 4 
buf=NULL; 
} 
i++; 
buf=NULL; 
} 
return 0; 


很 显然 ， 示 例 代码 中 的 字符 串 “ 从 明天 起 ， 做 一 个 幸福 的 人 ; 喂 马 ， 劈 柴 ， 周 游 世界 ; 从 明天 起 ， 关 心 粮食 和 蔬菜 ; 我 有 一 所 房子 ， 面 朝 大 海 ， 春 暖 花 开 ”有 两 级 分 隔 符 : 一 级 分 隔 符 是 “; ”号 ,把 
这 个 字符 串 分 割 成 “从 明天 起 ， 做 一 个 幸福 的 人 ”“ 喂 马 ， 劈 柴 ， 周 游 世 界 ” “从 明天 起 ， 关 心 粮食 和 蔬菜 、 我 有 一 所 房子 ， 面 朝 大 海 ， 春 暖 花 开 ”三 个 子 串 ; 二 级 分 隔 符 是 “，” 号 ， 对 前 面 的 子 串 继续 
进行 分 割 。 示 例 代码 的 运行 结果 如 图 8-9 所 示 。 


EOIEl ds 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5) ”终端 (T) 帮助 (H) 


[mawei@lamp c]$ gcc Test.c 
[mawei@lamp cl]$ ./a.out 
*9: 从 明天 起 ,做 一 个 幸福 的 人 
----9: 从 明天 起 
----1: 做 一 个 幸福 的 人 

#1: 喂 马 , 劈 柴 , 周 游 世界 
----2: 喂 马 

----3: 璧 此 

----4: 周 游 世界 

*2: 从 明天 起 ,关心 粮食 和 蔬菜 
----5: 从 明天 起 
----6: 关 心 粮 食 和 蔬菜 

#3: 我 有 一 所 房子 , 面 朝 大 海 ,春暖 花 开 
----7: 我 有 一 所 房子 
----8: 面 朝 大 海 
----9: 春 暖 花 开 


图 8-9 stttok_t 函 数 示例 代码 的 运行 结果 


建议 75: 掌握 字符 串 查找 技术 


在 对 C 语 言 的 编程 实践 中 ， 字 符 串 查找 是 最 频繁 的 字符 串 操作 之 一 ， 本 节 就 对 常用 的 字符 串 查找 函数 做 一 个 简 和 


LL 


的 总 


占 
. 


豆 


建议 75-1: 使 用 strchr 与 strrchr 函 数 查 找 单 个 字符 


如 果 需 要 对 字符 串 中 的 单个 字符 进行 查找 ， 那 么 应 该 使 用 strchr 或 strrchr 函 数 。 其 中 ，strchr 函 数 原型 的 一 般 格 式 如 下 : 


Char *strchr (const char *s, int cC) ; 


它 表示 在 字符 


Bs 中 查找 字符 c， 返 回 字符 c 第 一 次 在 字符 串 s 中 出 现 的 位 置 ， 如 果 未 找到 字符 c， 则 返回 NULL。 也 就 是 说 ，strchr 函 数 在 字符 串 s 中 从 前 到 后 (或 者 称 为 从 左 到 右 ) 查找 字符 c， 找 到 字符 c 


第 一 次 出 现 的 位 置 就 返回 ， 返 回 值 指向 这 个 位 置 ， 如 果 找 不 到 字符 c 就 返回 NULL。 


相对 于 strchr 函 数 ，strrchr 函 数 原型 的 一 般 格式 如 下 : 


char *strrchr (const char *s, int 本 ; 


与 strchr 函 数 一 样 ， 它 同样 表示 在 字符 呈 


电 s 中 查找 字符 c， 返 回 字符 < 第 一 次 在 字符 串 s 中 出 现 的 位 置 ， 如 果 未 找到 字符 c， 则 返回 NULL。 但 两 者 唯一 不 同 的 是 ，strrchr 函 数 在 字符 串 s 中 是 从 后 到 前 (或 者 


称 为 从 右 向 左 ) 查找 字符 c， 找 到 字符 c 第 一 次 出 现 的 位 置 就 返回 ， 返 回 值 指向 这 个 位 置 。 下 面 的 示例 代码 演示 了 两 者 之 间 的 区 别 : 


int main (void) 


{ 


char str[] = "I welcome any ideas from readers, of course."; 
char *1e = Stzchr (str, ‘'o') 

Brintf ("etrehr; WwW 16); 

Char *rc = strrchr (str, !o') ; 

Printf ("strrchr: %s\n", rc); 

return 0; 


对 于 上 面 的 示例 代码 ，strchr 函 数 是 按照 从 前 到 后 的 顺序 进行 查找 ， 所 以 得 到 的 结果 为 “ome any ideas from readers，of course.”; 而 strrchr 函 数 则 相 


反 ， 它 按照 从 后 到 前 的 顺序 进行 查找 ， 所 以 


maweialamp:=/ 程 序 设 计 /C 
文件 (F) 编辑 (E) 查看 (V) 搜索 (5) ”终端 (T) 帮助 (H) 
| [mawei@lamp cl]$ gcc Test.c 


[mawei@lamp cj 车 ./a.out 

strchr: ome any ideas from readers, of course, 
strrchr: ourse., 

[mawei@lamp c]s 国 


8-10 strrcht 观 数 示例 代码 的 运行 结果 


最 后 还 需要 注意 的 是 ， 为 什么 函数 的 “c” 参数 是 int 类 型 ， 而 不 是 “char” 类 型 呢 ? 


其 实 原因 很 简单 ， 这 里 用 的 是 字符 的 ASClI 码 (因为 每 个 字符 都 对 应 着 一 个 ASCIl 码 ) ， 这 样 在 传 值 的 时 候 既 可 以 传 “char” 类 型 的 值 ， 又 可 以 传 “int” 类 型 的 值 (0~127) 。 


建议 75-2: 使 用 strpbrk 函 数 查找 多 个 字符 


回 空 指针 。 其 函数 原型 的 一 般 格 式 如 下 : 


上 面 的 strchr 与 strrchr 函 数 解决 了 对 字符 串 中 单个 字符 的 查找 ， 那 么 需要 查找 多 个 字符 时 怎么 办 呢 ? 


空 字符 null (\0 ) 不 包括 在 内 ， 若 找 不 到 则 返 


如 果 要 查找 多 个 字符 ， 就 需要 使 用 strpbrk 国 数 了 。 该 函数 在 源 字符 串 (s1) 中 按 从 前 到 后 顺序 找 出 最 先 含有 搜索 字符 串 〈s2) 中 任 一 字符 的 位 置 并 返回 ， 


char *strpbrk (const char *s1，const char *s2) ; 


例如 ， 在 glibc-2.17 的 strpbrk.c 文 件 中 的 定义 如 下 : 


char *strpbrk (s, accept) 
Const char *s; 
const char *accept; 


while (*s |! = '\0') 

{ 
const char *a = accept; 
while (*a ! = '\0') 


if (*at+ == *s) 
return (char *) Ss; 
++s; 
} 
return NULL; 
} 


如 上 面 的 代码 所 示 ，strpbrk 函 数 首 先 依次 循环 检查 字符 串 s 中 的 字符 ， 当 被 检验 的 字符 在 字符 串 accept 中 也 包含 时 ( 即 “if (*a++==*s) ”) ， 则 停止 检验 ， 并 返回 ”(char*) s”。 如 果 没有 匹配 字 
符 ， 则 返回 空 指针 NULL。 这 里 需要 注意 的 是 ， 空 字符 null (\0') 不 包括 在 内 。 函 数 的 调用 示例 如 下 面 的 代码 所 示 : 


int main (void) 


char str[] = "I welcome any ideas from readers, of course."; 
Char *rc=strpbrk (str, "come") ; 

printf (SSNnn re) 六 

return 0; 


恨 显然 ， 示 例 代 码 的 运行 结果 为 “elcome any ideas from readers, of course.” 


EX 


建议 75-3: 使 用 strstr 函 数 查找 一 个 子 串 


相对 于 strpbrk 函 数 ，strstr 函 数 表示 在 字符 串 haystack 中 从 前 到 后 查找 子 串 needle 第 一 次 出 现 的 位 置 (不 比较 结束 符 null (\0 ) ) ， 并 返回 指向 第 一 次 出 现 needle 位 置 的 指针 ， 如 果 没 找到 则 返回 
NULL。 其 函数 原型 的 一 般 格式 如 下 : 


Char *strstr (const char *haystack, const char *needle) ; 


strstr 函 数 的 调用 示例 如 下 面 的 代码 所 示 : 


int main (void) 


{ 


char str[] = "I welcome any ideas from readers, of course."; 
Char *cl=strstr (str, "come") ; 

printf ("come: S$s\n", c1) ; 

Char *c2=strstr (str, "icome") ; 

printf ("icome: %s\n", c2) ; 

return 0; 


这 里 需要 注意 的 是 ， 因 为 strstr 函 数 与 strpbrk 函 数 不 同 ，strstr 函 数 匹 配 的 是 字符 串 ， 所 以 语句 “strstr (str，"icome") ”将 返回 NULL。 运 行 结果 如 图 8-11 所 示 。 


mawei@lamp:/ 程 序 设 计 /c 


证 


[mawei@lamp cj]$ ./a.out 

come:come any ideas from readers, of course. 
icome: (null) 

[mawei@lamp cj]$i 


8-11 strstt 吕 数 示例 代码 的 运行 结果 


建议 75-4: 区 别 strspn 与 strcspn 函 数 


strspn 函 数 表 示 从 字符 串 s 的 第 一 个 字符 开始 ， 逐 个 检查 字符 与 字符 串 accept 中 的 字符 是 否 不 相同 ， 如 果 不 相同 ， 则 停止 检查 ， 并 返回 以 字符 串 s 开 头 连 续 包含 字符 串 accept 内 的 字符 数目 。 其 函数 原型 
的 一 般 格式 如 下 : 


Size 七 strspn (const char *s, const char *accept) ; 


该 函数 在 glibc-2.17 的 strspn.c 文 件 中 的 定义 如 下 : 


size t strspn (s, accept) 
Const char *s; 
const char *accept; 
{ 
const char *p; 
const char *a; 
size t count = 0; 


for (p= 8; Pp i '\0'; ++P) 
{ 
for (a= accept; *a | = '\0'; ++a) 
if (xp 一 *a) 
break; 
if (*a 一 '\0') 


return count; 
else 
++count; 
} 


return count; 


从 上 面 的 示例 代码 中 可 以 看 出 ，strspn 函 数 从 字符 串 参 数 s 的 开头 计算 连续 的 字符 ， 而 这 些 字符 完全 是 accept 所 指 字符 串 中 的 字符 。 简 单 地 说 ， 如 果 strspn 函 数 返回 的 数值 为 n， 则 代表 字符 串 s 开 头 连续 
有 mn 个 字符 都 属于 字符 串 accept 内 的 字符 。 


函数 的 调用 示例 如 下 面 的 代码 所 示 : 


int main (void) 


char str[] = "I welcome any ideas from readers, of course."; 
printf ("I wel: %d\n", strspn (str, "I wel") ) ; 

printf ("Iwel: %d\n", strspn (str, "Iwel") ) ; 

printf ("welcome: %d\n", strspn (str, "welcome") ) ; 

printf ("5: Sd\n", strspr (str, "5*) ) ; 
return 0; 


Bs 开头 连续 包含 字符 串 accept 内 的 字符 数目 。 而 源 字符 串 str 中 的 “Il” 与 “welcome” 之 间 有 一 个 空格 ( 即 “| welcome”) ， 所 以 , 语 


在 上 面 的 示例 代码 中 ， 因 为 strspn 函 数 返 回 的 是 以 字符 呈 
名 “strspn (str,，"Iwel") ”将 返回 1， 而 语句 “strspn (str，"| wel") ”将 返回 5， 如 图 8-12 所 示 。 


mawei@lamp:~/ 程 序 设 计 /c 
文件 (E) 编辑 (E) 查看 (V) 扒 索 (S) ”终端 (T) 融 助 (H) 


[mawei@lamp cj$ gcc Test.c 
[mawei@lamp cj$ ./a.out 


I Wel:5 

Iwel:1 

welcome:08 

53:8 

[mawei@lamp c]$ 国 


图 8-12 strspn 叹 数 示例 代码 的 运行 结果 
Bs 开头 连续 不 含 字 符 串 reject 内 的 字符 


相对 于 strspn 函 数 ，strcspn 函 数 与 之 相反 ， 它 表示 从 字符 串 s 第 一 个 字符 开始 ， 逐 个 检查 字符 与 reject 中 的 字符 是 否 相同 ， 如 果 相 同 ， 则 停止 检查 ， 并 返回 以 字符 呈 


数目 。 其 函数 原型 的 一 般 格式 如 下 : 


size 七 strcspn (const char *s, const char *reject) ; 


该 函数 在 glibc-2.17 的 strcspn.c 文 件 中 的 定义 如 下 : 


size t strcspn (s, reject) 
Const char *s; 
const char *reject; 


{ 


size 七 count = 0; 


while (*s ! = '\0') 
if (strchr (reject, *s++) == NULL) 
++count; 
else 


return count; 
return count; 


从 上 面 的 代码 中 不 难 发 现 ，strcspn 函 数 正 好 与 strspn 函 数 相反 。strcspn 函 数 从 字符 串 参数 s 的 开头 计算 连续 的 字符 ， 而 这 些 字符 都 完全 不 在 参数 reject 所 指 的 字符 串 中 。 简 单 地 说 ， 如 果 strcspn 函 数 返 


回 的 数值 为 n， 则 代表 字符 串 s 开 头 连续 有 n 个 字符 都 不 包含 字符 串 reject 内 的 字符 。 


函数 的 调用 示例 如 下 面 的 代码 所 示 : 


int main (void) 


char str[] = "I welcome any ideas from readers, of course."; 
printf ("I wel: %d\n", strcspn (str, "I wel") ) ; 

printf ("Iwel: %$d\n", strcspn (str, "Iwel") ) ; 

Printf ("welcome: %d\n", strcspn (str, "welcome") ) ; 

Beintf ("S55 SN strespn (atr, "5") }3 

return 0; 


在 上 面 的 示例 代码 中 ， 因 为 strcspn 函 数 返 回 的 是 以 字符 串 s 开 头 连 续 不 包含 字符 串 accept 内 的 字符 数目 。 因 此 ， 其 运行 结果 如 图 8-13 所 示 。 


I Wel : 
Iwel: 


mawei®@lamp: 一 /程序 设计 /c 


文件 (FE) 编辑 (E) 查看 (V) 搜索 (5) ”终端 (TIT) 吉 助 (H] 


[mawei@lamp cjs$ gcc Test.c 
[mawei@lamp cj$ ./a.out 


‘Welcome:2 


5:44 


[mawei@lamp c]$ 国 


图 8-13 strncspn 函 数 示例 代码 的 运行 结果 


由 此 可 见 ， 对 于 strspn 函 数 ， 如 果 找 到 了 reject 与 s 不 相同 元 素 时 ， 指 针 停止 移动 ， 并 返回 以 字符 串 s 开 头 连续 包含 字符 串 accept 内 的 字符 数目 ; 而 strncspn 函 数 则 是 找到 了 reject 与 s 相 同 元 素 时 ， 指 针 停 
止 移动 ， 并 返回 以 字符 串 s 开 头 连 续 不 包含 字符 串 accept 内 的 字符 数目 。 这 一 点 一 定 要 注意 ， 干 万 不 要 混淆 了 。 


第 9 章 ”文件 系统 


所 谓 “ 文 件 ”， 就 是 指 存储 在 外 部 存储 介质 (简称 为 外 存 ， 一 般 为 磁盘 、 磁 带 、 光 盘 等 ) 上 的 数据 集合 。 这 些 数据 经 过 分 类 、 整 理 后 被 分 “ 块 ”存储 在 外 存 中 。 每 一 块 就 称 为 一 个 “文件 。， 其 中 可 以 
存放 彼此 相关 的 数据 ， 如 一 篇 文章 、 一 幅 图 像 、 一 段 录音 、 一 段 程序 、 一 组 人 员 的 信息 等 。 其 中 ， 操 作 系统 是 以 文件 为 单位 对 数据 进行 管理 ， 每 个 文件 都 通过 唯一 的 “文件 标识 ” (一 个 文件 标识 由 文件 所 
在 路 径 和 文件 名 两 部 分 组 成 ) 来 定位 。 


在 C 语 言 中 ， 不 论 在 


文件 中 存储 的 是 何 种 数据 ， 都 将 其 看 作 一 个 字 节 的 序列 ， 即 一 个 文件 是 由 一 连 串 的 字 节 组 成 的 。 一 个 字 节 对 应 C 语 言 中 的 一 个 字符 ， 所 以 C 语 言 将 任何 文件 (如 文本 文件 、 二 进 制 文 


件 等 ) 都 作为 一 个 字符 流 (stream) 来 看 待 。 因 此 ， 这 种 文件 也 称 为 流 式 文件 。 因 为 流 式 文件 中 信息 的 最 小 存 取 单位 是 字 节 ， 而 字 节 是 任何 数据 的 基本 存储 单位 ， 所 以 这 就 增强 了 C 语 言 处 理 文件 的 灵活 


性 。 


与 此 同时 ， 按 照 操作 系统 对 磁盘 文件 的 读 写 方式 来 看 ， 文 件 又 可 以 分 为 : 缓冲 文件 系统 和 非 缓冲 文件 系统 。 


对 于 “ 非 缓冲 文件 系统 ”， 它 对 文件 的 每 一 次 读 写 操作 都 需要 直接 访问 存储 在 外 存 中 的 物理 文件 ， 所 以 非 缓冲 文件 系统 需要 频繁 访问 外 存 。 很 显然 ， 由 于 CPU 访 问 外 存 的 速度 要 比 访问 内 存 慢 很 多 ， 且 


系统 开销 也 大 得 多 ， 因 此 为 了 提高 系统 的 运行 效率 和 减少 对 外 存 的 访问 次 数 ， 现 在 的 文件 操作 几乎 均 采 用 缓冲 文件 系统 。 


对 于 “缓冲 文件 系统 ”， 它 是 相对 “ 非 缓 冲 文件 系统 ”而 言 的 。 因 此 ， 缓 冲 文 件 系统 是 基于 这 样 一 个 事实 产生 的 : 对 文件 相 邻 若干 次 读 写 操作 的 位 置 往往 都 集中 落 在 该 文件 相对 较 小 的 一 块 区 域内 。 这 
样 如 果 在 第 一 次 读 文件 时 将 相应 区 域内 的 内 容 一 次 性 读 入 内 存 中 ， 则 其 后 对 该 文件 的 大 多 数 读 操作 便 可 在 内 存 而 不 是 在 外 存 中 进行 ， 只 有 当 在 内 存 中 找 不 到 要 读 的 内 容 时 才 需 要 再 次 访问 外 存 ， 这 无 疑 可 大 


大 减少 访问 外 存 的 次 数 。 


也 正 是 基于 上 面 这 个 原因 ， 缓 冲 文件 系统 事先 为 每 个 要 读 写 的 文件 在 内 存 中 开辟 一 个 “缓冲 区 ” (buffer) ， 并 且 对 外 存 物 理 文件 的 每 一 次 读 操作 都 一 次 读 满 一 个 缓冲 区 的 内 容 到 其 缓冲 区 ， 而 对 文件 


的 写 操作 也 是 先 在 其 缓冲 区 内 进行 ， 必 要 时 再 一 次 性 地 将 缓冲 区 的 内 容 写 回 外 存 的 物理 文件 中 。 即 每 次 对 文件 的 读 写 操 作 都 尽 可 能 地 在 其 缓冲 区 中 进行 ， 仅 当 要 读 写 的 位 置 与 缓冲 区 的 内 容 不 符 时 才 需 再 次 


访问 外 存 。 


早期 的 C 版 本 可 以 同时 支持 缓冲 文件 系统 和 非 缓 冲 文 件 系统 ， 但 在 ANSI C 中 将 不 再 支持 非 缓冲 文件 系统 ， 而 只 支持 缓冲 文件 系统 。 在 UNIX 系 统 下 ， 用 缓冲 文件 系统 来 处 理 文本 文件 ， 用 非 缓冲 文件 系统 


来 处 理 二 进 制 文件 。 


建议 76: 说 愤 使 用 print 傈 0scanf 函 数 


1. 使 用 printf 


对 于 printf 函 数 ， 相 信 大 家 并 不 陌生 。 之 所 以 称 它 为 格式 化 输出 函数 ， 关 键 就 是 该 函数 可 以 按 用 户 指定 的 格式 ， 把 指定 的 数据 显示 到 显示 器 屏幕 上 。 该 函数 原型 的 一 般 格 式 如 下 : 


int printf ( const char * format, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/... ) ; 


很 显然 ， 与 其 他 库 函 数 不 同 的 是 ，printf 函 数 是 一 个 “可 变 参 数 函 数 ” 〈 即 函数 参数 的 个 数 是 可 变 的 ) 。 确 切 地 说 ， 是 其 输出 参数 的 个 数 是 可 变 的 ， 且 每 一 个 输出 参数 的 输出 格式 都 有 对 应 的 格式 说 明 符 
与 之 对 应 ， 从 格式 串 的 左 端 第 1 个 格式 说 明 符 对 应 第 1 个 输出 参数 ， 第 2 个 格式 说 明 符 对 应 第 2 个 输出 参数 ， 第 3 个 格式 说 明 符 对 应 第 3 个 输出 参数 ， 以 此 类 推 。 其中， 格式 说 明 符 的 一 般 形 式 如 下 ( 方 括号 [0 中 


的 项 为 可 选项 ) : 


%[flags] [width] [.prec] [length] type char 
/* 用 中 文 标识 如 下 : */ 
名 [标志 符 ] [宽度 ] [精度 ] [长 度 ] 类 型 符 


(1) 类 型 符 (type_char) 


过 


以 表示 输出 数据 的 类 型 ， 如 表 9-1 所 示 。 


表 9-1 常见 的 类 型 符 及 其 说 明 


于 ET 二 
5 内 从 “wr 本 


et 
J 


is 和 int 以 整 型 输出 printf( "%i.%d", 100.100 ): 100,100 
u unsigned int 以 无 符号 整 型 输出 printf( "%ou.%ou", 100u.100): | 100,100 
o unsigned int 以 八进制 无 符号 整 型 输出 printf( "%o"., 100 ): 144 
和 unsigned int 以 十 六 进 制 小 写 输出 printf( "% x ", 11): b 
X unsigned int 以 十 六 进 制 大 写 输出 printf( "%X", 11): B 
( 续 ) 
符 号 类 型 说 明 示 例 结 果 
以 小 数 表 示 float 和 double . 
f、F (C99) double 二 printf( "%f"', 3.14): 3.140000 
型 数据 
以 科学 计数 法 表示 float 和 
e double Te printf( "%e", 31.4 ): 3.140000e+001 


double 型 数据 (e 用 小 写 ) 
以 科学 计数 法 表示 float 和 
intf( "%E", 31.4 ): : + 
E double double 型 数据 (E 用 大 写 ) printf( "%E", 31.4 ) 3.140000E+001 
自动 将 能 显示 的 很 小 或 很 大 gr 
Wd dm ty rin og, Wg", 3.14, 
g double 的 数 转换 成 %f， 不 能 直接 显 | 工 3.14,3.14e-005 
示 的 数 则 转换 成 %e Et 
自动 将 能 显示 的 很 小 或 很 大 
i > a 3 printf( "%G, %G", 3.14, 
G double 的 数 转换 成 %f， 不 能 直接 显 3.14.3.14E-005 
示 的 数 则 转换 成 %E i 
了 至 后 类 .一 ,村 小 | 米 [ 全 > 
浮 点 数 、 十 六 进 制 数字 和 
a (C99) double . -a 站 | printf "gbar 31.4); 0x1.f66666p+4 
P- 证 并 和 讼 ， 子 坪 小 习 


浮 点 数 、 十 六 进 制 数字 和 


A(C99 ) double p- 计数 法 ， 字 母 大 写 (C99 ) printf( "%A", 31.4 ); OX1.F66666P+4 
c int 单个 字符 printf( "%e", 67 ): C 

S 字符 串 字符 串 printf( "%s", "Hello" ): Hello 

p void* 内 存 地 址 ， 以 十 六 进 制 表 示 | inti= 1: printf( "%p", &i ): | 0029FC84 


除 表 9-1 所 示 的 类 型 符 之 外 ， 还 有 一 个 比较 特殊 与 另类 的 类 型 符 “%n” ， 当 在 格式 化 字符 串 中 碰 到 “%n” 时 ， 在 “%n” 之 前 输出 的 字符 个 数 会 保存 到 下 一 个 参数 里 。 例 如 ， 下 面 的 示例 代码 演示 了 如 
何 获取 在 两 个 格式 化 的 数字 之 间 空 间 的 偏 量 : 


int main (void) 


int pos=0; 

int x = 123; 

int y = 456; 

printf ("%dsn%sd\n", x, é&pos, y); 
printf ("pos=%d\n", Pos) ; 

return 0; 


i 


很 显然 ， 上 面 代码 中 的 pos 将 输出 3， 即 “123” 的 长 度 ， 运 行 结果 如 图 9-1 所 示 。 


mawei@lamp:-~/ 程 序 设 计 /c 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5) 终端 了 帮助 (H) 
[mawei@lamp c]$ gcc Test,.c 


[mawei@lamp cl$ ./a.out 
123456 

pos=3 

[mawei@lamp c]$ 国 


图 9-1 示例 代码 的 运行 结果 


这 里 需要 特别 注意 ，“%n” 返 回 的 是 应 该 被 输出 的 字符 数目 ， 而 不 是 实际 输出 的 字符 数目 。 当 把 一 个 字符 串 格式 化 输出 到 一 个 定 长 缓冲 区 内 时 ， 输 出 字符 串 可 能 被 截 短 。 不 考虑 截 短 的 影 
响 ，“%n” 格 式 表示 如 果 不 被 截 短 的 偏 量 值 ( 输 出 字符 数目 ) 。 看 下 面 的 示例 代码 : 


int main (void) 


char buf[20]; 


int pos=0 

int x = 0; 

snprintf (puf, sizeof (buf) ， "%.100d%n", x, &pos) ; 
Printf ("pos=%d\n", Pos) ; 

return 0; 


} 


很 显然 ， 上 面 的 代码 会 输出 100， 而 不 是 20， 运 行 结果 如 图 9-2 所 示 。 


maweiaolampD: 一 /程序 设计 乓 


文件 (FE] 编辑 (E) 查看 (V) 搜索 (S) ”终端 了 T) 帮助 (H) 
[mawei@lamp cj 车 gcc Test.c 


[mawei@lamp cl] 车 ./a.out 
pos=100 
[mawei@lamp c]$ 国 


图 9-2 示例 代码 的 运行 结果 


由 此 可 见 , 相对 于 “%d”“%x”“%s” 等 ，“%n” 的 显著 不 同 之 处 就 是 “%n” 会 改变 变量 的 值 ， 这 也 就 是 格式 化 字符 串 攻击 的 爆破 点 ， 如 下 面 的 示例 代码 所 示 : 


char daddr[16]; 
int main (void) 


char buf[100]; 

int x=1; 

memset (aaddr， /Ot 46) 3 

printf ("前 X: %d/% #x Cp), WE 
strncpy (daddr, ". 9) ; ; 

snprintf (buf, sizeof (puf) ， daddr) ; 


buf[sizeof (buf) -1] 
printf ("后 X: %d/%#x (sp) Nt 2 
return 0; 


} 


在 上 面 的 代码 中 ，x 将 被 从 1 修改 成 7， 其 运行 结果 如 图 9-3 所 示 。 


mawei@lamp:~/ 程 序 设计 i/c 


文件 (FE) 编 缉 (E) 查看 (V) 搜索 (5) 终 消 加 
[mawei@lamp cj]$ ./a. out 


前 其: 1/8xl (9xbf94db58 ) 
后 X: 7 了 /ex7 (gxbf94db58) 
[mawei@lamp c]$ 国 


图 9-3 ”示例 代码 的 运行 结果 


之 所 以 会 出 现 这 样 的 结果 ， 是 因为 程序 在 调用 snprintf 函 数 之 前 ， 首 先 调 用 了 printf 函 数 ， 而 这 时 printf 函 数 的 &x 参 数 在 main 函 数 的 堆栈 内 存 中 留 下 了 &x 的 内 存 残 像 。 当 调用 snprintf 时 ， 系 统 本 来 只 
给 snprintf 准 备 了 3 个 参数 ， 但 是 由 于 格式 化 字符 捉 攻 击 原因 ， 使 得 snprinf 认 为 应 该 有 4 个 参数 传 给 它 ， 这 样 snprintf 就 私自 把 &x 的 内 存 残 像 作为 第 4 个 参数 读 走 ， 而 snprintf 所 谓 的 第 4 个 参数 对 应 的 就 
是 “%n”， 于 是 snprintf 就 成 功 修改 了 变量 x 的 值 。 这 也 就 是 最 常见 的 使 用 Linux 函 数 调 用 时 的 内 存 残 像 来 实现 格式 化 字符 串 攻击 的 方法 之 一 ， 所 以 在 使 用 的 时 候 一 定 要 注意 。 


(2) 标志 符 (flags) 


它 用 于 规定 输出 格式 ， 如 表 9-2 所 示 。 


表 9-2 标志 符 及 其 说 明 


秆 号 说 明 


( 空 晶 ) 右 对 齐 ， 左 边 填充 0 和 空格 

(空格 ) 输出 值 为 正 时 加 上 空格 ,为 负 时 加 上 负 号 

= 输出 结果 为 左 对 齐 (默认 为 右 对 齐 )， 右边 填 守 格 (如 果 存 在 表格 最 后 一 介绍 的 0， 那 么 将 忽略 0 ) 
+ 在 数字 前 增加 符号 “+”( 正 号 ) 或 “-”( 负 号 ) 


类 型 符 是 o、x、 义 时， 增加 前 级 0、0x、0X ; 类 型 符 是 e、E、f、F、g、G 时 , 一 定 使 用 小 数 点 ; 


# i 
类 型 符 是 g、G 时 ， 尾 部 的 0 保留 
0 参数 的 前 面 用 0 填充， 直到 占 满 指定 列 宽 为 止 (如 果 同 时 存在 “-”， 将 被 “-” 覆 盖 ， 导 致 0 被 忽略 ) 


(3) 宽度 (width) 


它 用 于 控制 显示 数值 的 宽度 ， 如 表 9-3 所 示 。 


表 9-3 宽度 及 其 说 明 


符号 说 明 
n 至 少 输出 n 个 字符 (n 是 一 个 正 整 数 )。 如 果 输 出 值 少 于 n 个 字符 ， 则 用 空格 填 满 余下 的 位 置 (如 果 标 志 
符 为 “-”， 则 在 右 端 填 ， < 2 左 端 十 ) 
On 至 少 输出 n 个 字符 (n 是 一 个 正 整 数 )。 如 果 输 出 值 少 于 n 个 字符 ， 则 在 左 端 填 满 0 
输出 字符 es 1 参数 指定 (其 必须 为 一 个 整形 量 ) 


(4) 精度 (.prec) 
它 用 于 控制 显示 数值 的 精度 。 如 果 输 出 的 是 数字 ， 则 表示 小 数 的 位 数 ; 如 果 输 出 的 是 字符 ， 则 表示 输出 字符 的 个 数 ， 若 实际 位 数 大 于 所 定义 的 精度 数 ， 则 截 去 超过 的 部 分 。 如 表 9-4 所 示 。 
表 9-4 精度 及 其 说 明 
符号 说 明 
无 系统 默认 精度 
对 于 d、i、o、u、x、X 等 整 型 类 型 符 ， 采 用 系统 默认 精度 ; 对 于 f、F、e、E 等 浮 点 类 型 符 ， 不 输出 小 


”| 数 部 分 
( 续 ) 

符号 说 明 

1) 对 于 d、i、o、u、x、X 类 型 符 ， 至 少 输 出 n 位 数字 ， 且 : 

口 如 果 对 频 的 输出 参数 少 于 n 位 数字 ， 则 在 其 左 端 用 零 ( 0 ) 填充 

口 如 果 对 应 的 输出 参数 多 于 nm 位 数字 ， 则 输出 时 不 对 其 进行 截断 
™ ) 对 于 f、F、e、E 类 型 符 ， 输 出 结果 保留 n 位 小 数 。 如 果 小 数 部 分 多 于 n 位 ， 则 对 其 四 舍 五 人 

3 ) 对 于 g 和 G 类 型 符 , 最 多 输出 n 位 有 效 数 : 

4 ) 对 于 s 类 型 符 ， 如 果 对 应 的 输出 串 的 长 度 不 超过 1n 个 字符 ， 则 将 其 原样 输出 ， 否 则 输出 其 头 n 个 字符 
输出 精度 由 下 一 个 输出 参数 指定 (其 必须 为 一 个 整 型 量 ) 


(5) 长 度 (length) 


它 用 于 控制 显示 数值 的 长 度 ， 如 表 9-5 所 示 。 


表 9-5 长 度 及 其 说 明 


符号 说 明 


与 4、i 一 起 使 用 ， 表 示 一 个 signed char 类 型 的 值 ; 与 o、u、x、X 一 起 使 用 ， 表 示 一 个 unsigned char 


Wh 类 型 的 值 ; 与 n 一 起 使 用 ， 表 示 相 应 的 变 元 是 指向 signed char 型 变量 的 指针 (ec99 ) 
h 与 d、i、o、u、Xx、 义 或 n 一 起 使 用 ， 表 示 一 个 short int 或 unsigned short int 类 型 的 值 
1 与 4、i、o、u、x、X 或 mn 一 起 使 用 ， 表 示 一 个 long int 或 者 unsigned long int 类 型 的 值 
ll 与 d\i.o ux、 义 或 n 一 起 使 用 ， 表 示 相 应 的 变 元 是 long long int 或 unsigned long long int 类 型 的 值 (c99 ) 
| 与 d、i、o、u、x、 义 或 n 一 起 使 用 ， 表示 匹配 的 变 元 是 intmax_t 或 uintmax t 类 型 ， 这些 类 型 在 “ stdint. 
; h” 中 声明 (c99 ) 
与 4、i、o、u、x、X 或 n 一 起 使 用 ， 表 示 匹 配 的 变 元 是 指向 size_t 类 型 对 象 的 指针 ， 该 类 型 在 “ stddef. 

h” 中 声明 (c99 ) 
与 d、i、o、u、x、X 或 n 一 起 使 用 ， 表示 匹配 的 变 元 是 指向 ptrdiff t 类 型 对 象 的 指针 ， 该 类 型 在 “ stddef. 

h” 中 声明 (c99 ) 
B 和 a、A、e、E、f、F、g、G 一 起 使 用 ， 表 示 一 个 long double 类 型 的 值 


最 后 ， 在 使 用 printf 函 数 时 还 必须 注意 ， 尽 量 不 要 在 printf 语 句 中 改变 输出 变量 的 值 ， 因 为 可 能 会 造成 输出 结果 的 不 确定 性 。 如 下 面 的 示例 代码 所 示 : 


int k=8; 
printf ("%d, Sd\n", k, ++k) ; 


对 于 上 面 的 代码 ， 表 面 上 看 起 来 输出 的 结果 应 该 是 “8，9”。 但 实际 情况 并 非 如 此 ， 在 调用 printf 函 数 时 ， 其 参数 是 从 右 至 左 进行 处 理 的 ， 即 将 先进 行 ++k 运 算 ， 所 以 最 后 的 结果 是 “9，9”。 由 此 可 


， 干 万 不 要 在 printf 语 句 中 试图 改变 输出 变量 的 值 ， 如 果 确 实 需要 改变 ， 可 以 按照 下 面 的 示例 代码 形式 来 处 理 : 


六 


printf ("gd\n", k) ; 
printf ("sd\n", ++k) ; 


这 样 处 理 之 后 ， 其 结果 就 是 我 们 所 需要 的 “8，9” 了 。 


除 此 之 外 ， 每 一 个 输出 参数 的 输出 格式 都 必须 有 对 应 的 格式 说 明 符 与 之 一 一 对 应 ， 并 且 类 型 必须 匹配 。 若 二 者 不 能 够 一 一 对 应 匹配 ， 则 不 能 够 正确 输出 ， 而 且 编 译 时 可 能 不 会 报错 。 同 时 ， 若 格式 说 明 


符 个 数 少 于 输出 项 个 数 ， 则 多 余 的 输出 项 将 不 予 输出 ; 若 格式 说 明 符 个 数 多 于 输出 项 个 数 ， 则 可 能 会 输出 一 些 毫 无 意义 的 数字 乱码 。 


2. 使 用 scanf 函 数 


相对 于 printf 函 数 ，scanf 函 数 就 简单 得 多 。scanf 函 数 的 功能 与 printf 函 数 正好 相反 ， 执 行 格式 化 输入 功能 。 即 scanf 函 数 从 格式 串 的 最 左 端 开 始 ， 每 遇 到 一 个 字符 便 将 其 与 下 一 个 输入 字符 进行 


"jt 


配 ”， 如 果 二 者 匹配 (相同 ) 则 继续 ， 否 则 结束 对 后 面 输入 的 处 理 。 而 每 遇 到 一 个 格式 说 明 符 ， 便 按 该 格式 说 明 符 所 描述 的 格式 对 其 后 的 输入 值 进行 转换 ， 然 后 将 其 存 于 与 其 对 应 的 输入 地 址 中 。 以 此 类 


推 ， 直 到 格式 串 结束 为 止 。 该 函数 原型 的 一 般 格式 如 下 : 


int scanf (const char *format, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...); 


从 函数 原型 可 以 看 出 ， 同 printf 函 数 相似 ，scanf 浮 数 也 是 一 个 “可 变 参数 函数 ”。 同 时 ，scanf 溯 数 的 第 一 个 参数 format 也 必须 是 一 个 格式 化 串 。 除 此 格式 化 串 之 外 ，scanf 沙 数 还 可 以 有 若干 个 输入 地 
址 ， 且 对 于 每 一 个 输入 地 址 ， 在 格式 串 中 都 必须 有 一 个 格式 说 明 符 与 之 一 一 对 应 。 即 从 格式 串 的 左 端 第 1 个 格式 说 明 符 对 应 第 1 个 输入 地 址 ， 第 2 个 格式 说 明 符 对 应 第 2 个 输入 地 址 ， 第 3 个 格式 说 明 符 对 应 第 3 


个 输入 地 址 ， 以 此 类 推 。 


也 就 是 说 ， 除 第 1 个 格式 化 串 参数 之 外 ， 其 他 参数 的 个 数 是 可 变 的 ， 且 每 一 个 输入 地 址 必须 指向 一 个 合法 的 存储 空间 ， 以 便 能 正确 地 接受 相应 的 输入 值 。 每 个 输入 值 的 转换 格式 都 由 格式 说 明 符 决定 。 格 


式 说 明 符 的 一 般 形式 如 下 ( 方 括 号 0 中 的 项 为 可 选项 ) : 


%$[*] [width] [length] type char 
/* 用 中 文 标识 如 下 : */ 
名 [*] [宽度 ] [长 度 ] 类 型 符 


在 使 用 scanf 函 数 的 时 候 ， 需 要 特别 注意 的 就 是 缓冲 区 问题 。 对 scanf 函 数 来 说， 估计 最 容易 出 错 、 最 令 人 捉摸 不 透 的 问题 应 该 是 缓冲 区 问题 了 。 


下 面 先 来 看 一 段 示例 代码 : 


int main (void) 
{ 
char SLS] 
int i=0; 
Printf ("输入 数据 (hello) : \n") ; 
for (i = 0; i < 5; ++i) 
{ 
Scanf ("%c", &c[i]); 
} 
printf ("输出 数据 : \n") ; 
PrintE ("Sean co) 
return 0; 


对 于 上 面 这 段 示例 代码 ， 我 们 希望 在 “c[5]” 字 符 数组 中 能 够 存储 “hello” 字 符 串 ， 并 在 最 后 输出 到 屏幕 上 。 从 表面 上 看 ， 这 段 程序 没有 任何 问题 ， 但 实际 情况 并 非 如 此 。 当 我 们 依次 输入 “h ( 回 


车 ) ”“e ( 回 车 ) ”， 然 后 再 输入 “|” 时 ， 问 题 发 生 了 。 此 时 ， 程 序 不 仅 中 断 输 入 操作 ， 而 且 会 打印 出 字符 数组 c 中 的 内 容 ， 其 运行 结果 如 图 9-4 所 示 。 


mawei@lamp:~/ 程 友 坡 填 /C 


文件 (E) 编辑 (E) 查看 (V) 搜索 (3S) 
[mawei@lamp c]$ gcc -g Test.c -0 TeSt 
[mawei@lamp c]$ ./Test 
输入 数据 (hello): 


[mawei@lamp c]$ 上 I 


终端 (TI) 末 助 (H) 


图 9-4 ”示例 代码 的 运行 结果 


很 显然 ， 字 符 数组 “c[5]” 是 完全 能 够 存储 “hello” 字 符 串 的 ， 但 为 什么 输入 到 “|” 就 结束 了 呢 ? 


个 \n”， 然 后 输入 “e” 和 第 2 个 回 车 符 \n”。 同 理 ， 第 3 个 scanf 读 取 了 “e”， 第 4 个 scanf 读 取 了 第 2 个 回 车 符 “\n”， 第 5 个 scanf 读 取 了 “|”。 因 


因 很 简单 ， 在 我 们 输入 “h” 和 第 一 个 回 车 后 ， 


“h” 和 这 个 


回 车 符 “n” 都 保留 在 缓冲 


scanf 语 句 ， 只 不 过 有 两 次 scanf 都 读 取 到 回 车 符 “^n” 而 已 。 


其 实 ， 如 果 用 gdb 调 试 工具 单 步 执行 ， 可 以 很 轻松 地 发 现 这 个 问题 ， 如 下 面 的 调试 代码 所 示 : 


区 中 。 第 1 个 scanf 读 取 了 “h” ， 但 是 输入 缓冲 


区 里 面 还 留 有 一 个 “n”， 于 是 第 2 个 scanf 读 取 这 
此 ， 程 序 并 没有 提前 结束 ， 而 是 完整 地 循环 了 5 次 


[mawei@lamp c]$ gcc -g Test.c -oo Test 


[mawei@lamp c]$ gqb Test 


= 


ON 


oo 


1 
也 
1 
1 
I 
ks 
1 
h 
1 
I 
1 
1 
二 
证 
1 
于 
e 
1 
1: 
和 
1 
1 
1 
1 
1 
1 
和 
1 
E 
工 
I 
h 
e 
二 
El 
1 


(gdb) 


Start' »"+ 


C= "\b\253\204\004\b" (gdb) n 
printf ("输入 数据 (hello) : \n") ; 
Cc = "\b\253\204\004\b" (gdb) 输入 数据 (hell0) : 
for (i = 0; i < 5; ++i) 
c = "\b\253\204\004\b" (gdb) 
scanf ("%c", &c[i]); 
c = "\b\253\204\004\b" (gdb) 
for (i = 0; i < 5; ++i) 
c = "h\253\204\004\b" (gdb) 
scanf ("%c", &c[il) ; 
c = "h\253\204\004\b" (gdb) 
for (i = 0; i < 5; ++i) 
c = "h\n\204\004\b" (gdb) 
Scanf ("%c", &c[i]) 
c= "h\n\204\004\b" (gdb) 
for (i = 0; i <5; ++ti) 
c= "h\ne\004\b" (gdb) 
scanf ("%c", &c[il) ; 
c= "h\ne\004\b" (gdb) 
or (i = 0; 1 < 5; +ti) 
c= "h\ne\n\b" (gdb) 
scanf ("%c", &c[i]); 
c = "h\ne\n\b" (gdb) 
for (i = 0; i < 5; ++i) 
c= "h\ne\nl" (gdb) 
printf ("输出 数据 : \n") ; 
c = "h\ne\nl" (gdb) 输出 数据 : 
printf (ngsWnn 本 二 
c= "h\ne\nl" (gdb) 


return 0; 
c = "h\ne\nl" (gdb) 


(gdb) display c 


由 此 可 见 ， 在 使 用 scanf 函 数 时 ， 如 果 不 及 时 刷新 输入 缓冲 区 ， 有 时 会 出 现 莫名 其 妙 的 错误 。 对 了 


不 说 明 的 是 ，fflush 函 数 在 可 移植 性 上 并 不 是 很 好 。 当 然 ， 也 可 以 通过 自己 编写 代码 来 解决 ， 如 下 面 的 示例 代码 所 示 : 


这 类 问题 ， 其 实 解决 办 法 有 许多 ， 比 如 可 以 使 用 “fflush (stdin) ;“ 


语句 来 刷新 输入 缓冲 区 。 但 不 得 


void flush () 
{ 


char c; 
while ( (c=getchar () ) 


'\n'g&c! =EOF) 


main (void) 

char c[5]; 

int i=0; 

printf ("输入 数据 (hello) : \n") ; 
for (i = 0D; < 5 十 Hi) 


{ 
scanf ("%c", &c[il) ; 
flush () ; 
} 
printf ("输出 数据 : \n") ; 
printf ("“%s\n", c); 
return 0; 


这 样 ， 就 从 根本 上 解决 了 输入 缓冲 


区 问题 ， 其 运行 结果 如 图 


9-5 所 示 。 


EW Hd 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5S) ”终端 (T) 帮助 (H) 
[mawei@lamp cj$ gcc Test.c 

[mawei@lamp c]$ ./a.out 

输入 数据 (hello): 


出 数据 : 
hello 
[mawei@lamp c]$ 目 


图 9-5 示例 代码 的 运行 结果 


除 此 之 外 ， 还 应 该 注意 scanf 中 的 空白 符 (这 里 所 指 的 空白 符 包 括 空格 、 制 表 符 、 换 行 符 、 回 车 符 和 换 页 符 ) 带 来 的 问题 ， 如 下 面 的 代码 所 示 : 


int main (void) 
{ 


in 
i i "输入 数据 : \n" 
入 请 注意 ， 革 全 多 皇 站 加 音 析 nx 
scanf ("%d\n", &a) ; 
printf ("输出 数据 : \n", 汪汪 
printf ("%d\n", a) 
return 0; 
} 


在 上 面 的 代码 中 ， 因 为 在 “scanf("%d\n"，&a) ; ”语句 中 多 加 了 一 个 回 车 符 ^\n” ， 叶 致 的 结果 就 是 要 输入 两 个 数 ， 程 序 才 会 正常 结束 ， 而 不 是 我 们 所 期 望 的 一 个 数 。 运 行 结果 如 图 9-6 所 示 。 


mawei@lamp:~/ 程 奈 设 讨 /C 


文件 (FE) 编辑 (E) 查看 (V】 搜索 (3) ”终端 (TI) 帮助 (H) 
[mwei@lamp cj]$ gcc Test.c 

[mawei@lamp cj$ ./a.out 

输入 数据 


22 

11 

输出 数据 

22 

[mawei@lamp cl] 中国 


9-6 ”加 了 一 个 回 车 符 “\n” 的 示例 代码 的 运行 结果 


测 


就 是 在 用 空白 符 结尾 时 ，scanf 会 跳 过 空白 符 去 读 下 一 个 字符 ， 所 以 必须 再 输入 一 个 数 。 因 此 在 编写 程序 时 一 定 要 多 注意 这 类 手 误导 致 的 错误 。 


建议 77: 谨慎 文件 打开 操作 


在 C 语 言 中 ， 在 对 某 个 文件 进行 读 写 等 操作 之 前 ， 必 须 先 在 内 存 中 开辟 一 块 区 域 以 存放 与 该 文件 有 关 的 一 些 信息 ， 而 这 些 信息 保存 在 一 个 FILE 类 型 的 结构 体 变量 中 。 例 如 ， 在 glibc-2.17 库 
的 “libio.h” 头 文件 中 对 FILE 结 构 体 定义 如 下 : 


struct _IO i { 
int flags; /* High-order word is _IO MAGIC; rest is flags. */ 
#define 10 file :flags flags 


char* _IO read ptr; /* Current read pointer */ 


char* IO read end; /* End of get area. */ 

char* _IO read base; /* Start of putback+get area. */ 

char* IO write base; /* Start of put area. */ 

char* _IO write ptr; /* Current put pointer. */ 

char* IO write end; /* End of put area. */ 

char* _IO buf base; /* Start of reserve area. */ 

char* _IO buf end; /* End of reserve area. */ 

/* The following fields are used to support backing up and undo. */ 

char * IO save base; /* Pointer to start of non-current get area. */ 
char * TO_ backup base; /* Pointer to first valid character of backup area */ 
char *_I0 save end; /* Pointer to end of non-current get area. */ 


struct _IO marker * markers; 
struct IO FILE * chain; 
int fileno; 


#if 0 
int blksize; 
#else 
int flags2; 
#endif 
_IO_off 七 old offset; /*This used to be offset but it's too small. */ 
#define HAVE COLUMN /* temporary */ 


/* 1+column number of pbase () ; 0 is unknown. */ 
unsigned short cur colum; 
signed char vtable offset; 
char shortbuf[1]; 
/* char* save gptr; char* save egptr; */ 
_IO lock t * lock; i 2 

#iFfdef _IO USE OLD IO FILE 

}; 


对 FILE 结 构 体 (也 称 为 文件 结构 ) 而 言 ， 不 同 的 C 编 译 系统 有 不 同 的 结构 成 员 。 前 面 已 经 说 过 ， 早 期 的 C 版 本 可 以 同时 支持 缓冲 文件 系统 和 非 缓冲 文件 系统 ， 但 在 ANSI C 中 将 不 再 支持 非 缓冲 文件 系 
统 ， 而 只 支持 缓冲 文件 系统 。 在 UNIX 系 统 下 ， 用 缓冲 文件 系统 来 处 理 文本 文件 ， 用 非 缓冲 文件 系统 来 处 理 二 进 制 文件 。 对 缓冲 文件 系统 而 言 ， 若 文件 的 读 写 操作 能 在 其 缓冲 区 内 完成 则 称 为 “命中 ”。 因 


此 ， 文 件 缓冲 区 越 大 其 读 写 的 命中 率 越 高 。 但 是 ， 如 果 缓 冲 区 开辟 得 过 大 ， 则 内 存 消耗 得 越 多 ， 能 同时 操作 (打开 ) 的 文件 个 数 越 少 ， 所 以 文件 缓冲 区 的 大 小 要 综合 考虑 。 至 于 文件 缓冲 区 的 具体 大 小 则 


由 具体 的 操作 系统 和 C 编 译 系统 决定 。 


建议 77-1: 正确 指定 fopen 的 mode 参 数 


在 C 语 言 中 ， 不 论 是 对 什么 类 型 的 文件 进行 何 种 操作 ， 都 必须 先 为 其 创建 一 个 指向 FILE 结 构 类 型 的 指针 变量 ， 以 便 存 放 该 文件 的 信息 。 然 后 ， 再 通过 fopen 函 数 对 其 进行 赋值 。 如 下 面 的 示例 代码 所 示 : 


FILE *fp= NULL; 

PE = fopen ( "myfile.txt", "w" ); 
if (pf ! = NULL) 

{ 


/玉环 克 太 炎 太 次 六 交 关 交 交 大/ 


i 


这 里 的 fopen 函 数 将 名 称 为 “myfile.txt” 的 文件 以 “w” 模 式 打 开 ， 并 将 文件 内 容 保存 到 FILE 文 件 流 中 。 其 中 ，fopen 函 数 的 原型 如 下 所 示 : 


FILE * fopen ( const char * filename, Const char * mode ) ; 


其 中 ， 参 数 filename 应 该 是 一 个 合法 的 文件 名 (当然 ， 也 可 以 指明 文件 路 经 ) ， 而 参数 mode 决 定 了 对 文件 的 操作 模式 。 简 单 来 讲 ，mode 参 数 的 值 可 以 用 6 个 字符 组 成 : r (read: 读 ) 、w (write: 
写 ) 、a (append: 追加 ) 、t (text: 文本 模式 ) 、b (banary: 二 进 制 模式 ) 、+ ( 读 取 和 写 入 ) 。 参 数 mode 的 完整 取 值 如 表 9-6 所 示 。 


表 9-6 mode 的 取 值 表 (C99) 


说 ” 明 


r 打开 只 读 文 本 文件 

本 “打开 只 与 文本 文件 ， 若 文件 存在 ， 则 将 文件 长 度 清 堆 ， 即 该 文件 内 容 会 消失 ; 若 文件 不 存 
在 ， 则 创建 该 文件 

以 附加 的 方式 打开 只 写 文本 文件 。 若 文件 不 存在 ， 则 会 创建 该 文件 ， 如果 文 件 存在 ， 写 人 
的 数据 会 被 加 到 文件 尾 ， 即 文件 原先 的 内 容 会 被 保留 

rb 打开 只 读 二 进 制 文件 

打开 只 写 二 进 制 文件 ， 若 文件 存在 ， 则 将 文件 长 度 清 零 ， 即 该 文件 内 容 会 消失 ; 阁 文 件 不 
存在 ， 则 创建 该 文件 

以 附加 的 方式 打开 只 写 二 进 制 文件 若 文件 不 存在 ， 则 会 创建 该 文件 ;如 果 文 件 存 在 ， 写 
入 的 数据 会 被 加 到 文件 尾 ， 即 文件 原先 的 内 容 会 被 保留 

+ 打开 可 读 写 文本 文件 ， 人 允许 读 取 和 写 入 数据 

本 打开 可 读 写 文本 文件 ， 若 文件 存在 ， 则 将 文件 长 度 清 零 ， 即 该 文件 内 容 会 消失 ; 知 文 件 不 
存在 ， 则 创建 该 文件 

以 附加 方式 打开 可 读 写 文本 文件 。 若 文件 不 存在 ， 则 会 创建 该 文件 ， 如 果 文 件 存在 ， 写 人 
的 数据 会 被 加 到 文件 未 尾 ， 即 文件 原先 的 内 容 会 被 保留 

r+b 或 者 rb+ 打开 可 读 写 二 进 制 文件 ， 允 许 读 取 和 写 入 数据 

we 打开 可 读 写 一 进 制 文件 ， 若 文件 存在 ， 则 将 文件 长 度 清 零 ， 即 该 文件 内 容 会 消失 ; 若 文 件 
不 存在 ， 则 创建 该 文件 

a 以 附加 方式 打开 可 读 写 二 进 制 文件 。 若 文件 不 存在 ， 则 会 创建 该 文件 ; 如 果 文 件 存 在 ， 写 


入 的 数据 会 被 加 到 文件 末尾 ， 即 文件 原先 的 内 容 会 被 保留 


在 使 用 mode 参 数 的 值 时 ， 应 该 注意 如 下 3 点 : 


“ 只 要 用 “fr” 模 式 打开 一 个 文件 ， 该 文件 必须 已 经 存在 ， 而 且 只 能 从 该 文件 读数 据 。 


“ 只 要 用 “w” 模 式 打 开 的 文件 ， 只 能 向 该 文件 执行 写 入 操作 。 若 打开 的 文件 不 存在 ， 则 以 指定 的 文件 名 创建 该 文件 ; 著 打 开 的 文件 已 经 存在 ， 则 文件 长 度 被 清 零 ， 该 文件 内 容 消失 。 


“ 车 要 向 一 个 已 存在 的 文件 追加 新 的 信息 ， 只 能 用 “a” 方 式 打 开 文 件 。 但 此 时 该 文件 必须 存在 ， 否 则 将 会 出 错 。 


最 后 ， 在 表 9-6 中 ， 有 些 C 编 译 系统 可 能 不 完全 支持 所 有 的 这 些 模式 字符 串 ， 又 或 者 提供 了 一 些 其 他 的 模式 字符 串 。 因 此 ， 读 者 一 定 要 多 注意 所 用 系统 的 规定 。 


建议 77-2: 必须 检查 fopen 函 数 的 返回 值 


对 于 fopen 函 数 ， 在 使 


的 时 候 一 定 要 检查 该 函数 的 返回 值 。 如 果 文 件 打开 失败 ， 则 会 返回 一 个 NULL 值 ， 同 时 把 错误 代码 保存 在 errno 中 。 如 果 程序 不 检查 这 种 错误 ， 会 将 这 个 NULL 指 针 传 给 后 续 的 
IO 函数 ， 从 而 导致 不 可 预料 的 错误 。 如 下 面 的 示例 代码 所 示 : 


int main (void) 
{ 


FILE *fp= NU 


IL; 
fp = fopen ( "myfile", "r") ; 


if (fp 一 NULL) 
{ 


perror ("错误 信息 ") ; 


exit (EXIT FAILURE) ; 


return 0; 


} 


示例 代码 的 运行 结果 如 图 


9-7 所 示 。 


maweiGlamp: 二 /程序 届 计 六 
文件 (FE) 编辑 (E) 查看 (V) 搜索 1S) 终端 (T) 帮助 (H) 


[mawei@lamp cj]$ gcc Test.c / 


[mawei@lamp cl] 车 ./a.out 
错误 信息 : No such file or directory 
[mawei@lamp cl]$ 国 


图 9-7 示例 代码 的 运行 结果 


建议 77-3: 尽量 避免 重复 打开 已 经 被 打开 的 文件 


由 


在 C 语 言 中 ， 对 于 “重复 打开 已 经 被 打开 的 文件 ”这 个 问题 ， 有 的 平台 允许 这 样 做 ， 有 的 平台 不 允许 这 样 做 。 无 论 怎样 ， 
免 这 种 行为 。 例 如 ， 下 面 的 这 种 做 法 肯定 是 不 太 合 适 的 : 


[Purl 


量 复 打开 已 经 被 打开 的 文件 都 有 可 能 导致 危险 的 竞争 条 件 ， 因 此 ， 应 该 尽量 避 


void OpenFile () 
{ 
FILE *fp= NULL; 
fp = fopen ( "myfile.txt", "w") ; 
if (fp 一 NULL) 
{ 
perror ("main™") ; 
exit (EXIT FAILURE) ; 
} 


int main (void) 


OpenFile () ; 
FILE *fp= NULL; 
fp = fopen ( "myfile.txt", "a") ; 
if (fp = NULL) 
{ 
perror ("main") ; 
exit (EXIT FAILURE) ; 
} 


return 0; 


建议 77-4: 区 别 fopen 与 fopen_s 函 数 


由 于 fopen 函 数 打开 的 文件 能 够 共享 ， 这 一 点 给 安全 埋 下 了 很 大 的 隐患 ， 建 议 77-3 的 示例 代码 就 演示 了 这 种 情况 。 虽 然 我 们 不 提倡 这 样 做 ， 但 却 是 程序 所 允许 的 。 


相对 于 fopen 函 数 ，fopen_s 函 数 在 安全 性 上 有 了 增强 。 如 果 文 件 由 fopen_s 函 数 打 开 ， 则 不 能 被 共享 ， 也 就 是 说 别人 无 法 读 / 写 和 访问 该 文件 。 其 函数 原型 如 下 面 的 代码 所 示 : 


errno t fopen s ( FILE ** file, const char * filename, const char * mode) ; 


从 函数 原型 可 以 看 出 ， 该 函数 返回 一 个 errno _t 类 型 ， 若 成 功 则 返回 0， 若 失败 则 返回 非 0。 如 下 面 的 示例 代码 所 示 : 


void OpenFile () 
{ 


FILE *fp= NULL; 
errno t err=fopen s ( &fp, "myfile.txt", "ww" ); 
if (err! =0 ) 
t 
perror ("OpenFile") ; 
exit (EXIT FAILURE) ; 
} 


int main (void) 


OpenFile () ; 
FILE *fp= NULL; 
fp = fopen ( "myfile.txt", "a") ; 
if (fp 一 NULL) 
§ 
perror ("main™") ; 
exit (EXIT FAILURE) ; 


return 0; 


示例 代码 的 运行 结果 如 图 9-8 所 示 。 


国 he 


图 9-8 ”示例 代码 的 运行 结果 (Microsoft Visual Studio 2010) 


建议 77-5: 区 别 fopen 与 freopen 函 数 


相对 于 fopen 函 数 ，freopen 函 数 主要 
filename 所 指定 文件 的 指针 ， 否 则 返回 NULL。 


FILE * freopen ( const char * filename, 


Const char * mode, 


FILE * stream ) ; 


于 将 标准 输入 /输出 流 (stdin: 标准 输入 流 ，stdout: 标准 输出 流 ，stderr: 标准 错误 输出 流 ) 
其 函数 原型 如 下 面 的 代码 所 示 : 


由 | 


定向 到 文件 中 。 如 果 成 功 重 定向 文件 流 ， 将 会 返回 一 个 


stdin 和 标准 输入 文件 相关 联 ， 它 通常 是 控制 台 的 键盘 ， 所 以 它 是 一 个 输入 流 ; stdout 则 和 标准 输出 文件 相关 联 ， 它 通常 是 控制 台 的 屏幕 ， 所 以 它 是 一 个 输出 流 ; stderr 和 标准 错误 输出 文件 相关 联 ， 当 


系统 运行 出 错时 ， 错 误 信息 往往 输出 到 标准 错误 输出 文件 中 ， 在 大 多 数 


目前 ， 大 多 数 操作 系统 允许 对 这 三 个 标准 文件 指针 重 


本 来 要 输出 到 控制 台 


int main (void) 


{ 


定向 。 例 如 ， 


int a=0; 
int b=0; 
/* 输 入 得 定 向 ， 输入 数据 将 从 in ,txt 文件 中 读 取 */ 
freopen ( "in.txt" Wew tdi - 
Fn 输出 重 定向 ， 输出 数据 将 保存 在 out 。 txt 文 件 中 ed 
freopen ( "out.txt", "w"， stdout ); 
while ( scanf ( "gd %d", &a, &b ) ! = EOF ) 
{ 

printf ("%d\n", atb) ; 


i 

人 cs 美 闻 实 忻 “7 
fclose ( stdin ); 
fclose ( stdout ); 
return 0; 


本 示例 代码 首先 使 


建议 78: 文件 操作 完成 后 必须 


在 文件 操作 完成 后 ， 必 须 及 时 使 


freopen 函 数 分 别 将 标准 输入 流 重 定向 到 in.txt 文 件 中 ， 
将 计算 结果 输出 到 out.txt 文 件 中 。 如 果 这 里 假设 in.txt 文 件 中 的 内 容 是 


fclose 函 数 将 文件 关闭 。 与 此 同时 ， 


将 标准 输出 流 


“100 50” 


关闭 


情况 下 它 和 stdout 一 样 ， 也 是 指控 制 台 的 


如 果 让 stdin 改 指向 一 个 文件 ， 此 后 所 有 从 键盘 读数 所 
幕 的 数据 便 都 被 转 写 入 到 相应 的 文件 中 了 。 如 下 面 的 示例 代码 所 示 : 


需要 将 文件 指针 指向 NULL 值 ， 


重 定向 到 out.txt 文 件 中 。 然 后 使 
， 那 么 最 终结 果 out.txt 文 件 中 的 内 容 将 是 “150” 


这 样 做 会 防止 出 现 游离 指针 ， 从 而 减少 不 必 


屏幕 ， 所 以 它 也 是 一 个 输出 流 。 


居 的 操作 便 都 改 为 从 相应 的 文件 中 读 取 。 同 理 ， 如 果 让 stdout 改 指向 一 个 文件 ， 则 


scanf 函 数 按 指 定 


格式 读 取 in.txt 文 件 中 的 内 容 ， 之 后 计算 “a+b” 的 值 , 并 


的 麻烦 。 如 下 面 的 示例 代码 所 示 : 


int main (void) 
{ 
FILE *fp= NULL; 
fp = fopen ( "myfile.txt", "w") ; 
if (fp 一 NULL) 
{ 
perror ("main™") ; 
exit (EXIT FAILURE) ; 


/六 大 六 炎 大 夫 赤 炎 人 
fclose (fp) ; 
fp = NULL; 
return 0; 


由 上 面 的 代码 可 以 看 出 ，fclose 函 数 将 传递 给 


if (fclose (fp) ) 


printf ("file close errorl \n") ; 


} 


建议 79: 正确 理解 EOF 宏 


因此 ， 文 件 的 关闭 操作 也 可 以 写成 如 下 代码 形式 : 


它 的 文件 指针 fp 所 指 的 文件 关闭 (该 操作 会 让 缓冲 区 内 的 数据 写 入 文件 中 ， 并 释放 系统 所 提供 的 文件 资源 ) 。 
0， 否 则 返回 EOF (-1) ， 并 把 错误 代码 存 到 errno。 


如 果 成 功 执行 了 关闭 操作 ，fclose 函 数 将 返回 


EOF 是 End Of File 的 缩写 ， 在 C 语 言 标准 库 中 的 定义 如 下 : 


#define FEOF (-1) 


迄今 为 止 , 关 于 EOF 作 用 的 观点 各 异 。 大 多 数 程序 员 认 为 “文件 中 有 一 个 EOF 字 符 ， 用 于 表示 文件 的 结尾 ”。 但 实际 上 ， 这 个 观点 并 不 正确 (或 者 说 并 不 完整 ) ， 在 文件 所 包含 的 数据 中 ， 并 没有 什么 
文件 结束 符 。 从 EOF 宏 的 定义 中 可 以 看 出 ，EOF 宏 的 值 为 -1， 属 于 int 类 型 的 数据 ， 在 32 位 系统 中 ， 可 以 表示 为 0xFFFFFFFF。 由 此 可 见 ，EOF 并 不 是 一 个 字符 ， 也 不 是 文件 中 实际 存在 的 内 容 。 那 么 ， 为 什 
么 会 有 这 样 的 观点 存在 呢 ? 


其 实 原因 很 简单 ， 因 为 对 一 些 数据 读 取 函 数 (如 fgetc 与 getc 函 数 ) 而 言 ， 如 果 读 到 文件 未 尾 (也 可 以 理解 为 “如 果 不 能 从 文件 中 读 取 ”， 即 文件 已 经 读 完 或 者 文件 读 取出 错 ) ， 则 返回 一 个 整数 (- 


1) ， 这 就 是 所 谓 的 EOF。 因 此 ，EOF 宏 不 但 能 够 表示 读 文件 到 了 结尾 这 一 状态 (这 种 状态 可 以 用 feof () 来 检测 ) ， 还 能 表示 IO 操作 中 的 读 、 写 错误 (通常 可 以 用 ferror () 来 检测 ) 以 及 其 他 一 些 关联 操 
作 的 错误 状态 。 


看 下 面 这 段 示例 代码 (这 里 以 X86 为 例 ) : 


int main (void) 
{ 
FILE *fp=NULL; ; 
nt Gt 
fp=fopen ("myfile.txt", "r") ; 
if (fp 一 NULL) 
Ef 
printf ("不 能 够 访问 该 文件 .\n") ; 
exit (1) ; 
while ( (c=fgetc (fp) ) ! = EOF) 
{ 


printf ("%x\n", c); 


} 
fclose (fp) ; 
fp=NULL; 


对 于 fgetc (或 者 getc) 函数 ， 它 返回 一 个 int 类 型 的 数据 。 在 正常 情况 下 ，fgetc (或 者 getc) 函数 以 unsigned char 的 方式 读 取 文件 流 ， 并 扩张 为 一 个 整数 返回 。 换 言 之 ，fgetc (或 getc) 函数 从 文件 
流 中 读 取 一 个 字 节 ， 并 加 上 24 个 0， 成 为 一 个 小 于 256 的 整数 ， 然 后 返回 。 


对 于 上 面 的 示例 代码 ， 在 正常 读 取 的 情况 下 ，fgetc 函 数 返 回 的 整数 均 小 于 256 ( 即 0x0~0xFF) 。 因 此 ， 就 算 读 到 了 字符 0xFF， 由 于 变量 < 被 定义 为 int 型 ， 实 际 上 这 里 的 c 等 于 0x000000FF， 而 不 是 等 
于 EOF ( 即 0xFFFFFFFF) ， 当 然 也 不 会 误 判 为 文件 结尾 。 也 就 是 阅 ， 即 使 是 上 面 的 示例 代码 遇 到 字符 0xFF，while 循 环 也 不 会 结束 ， 因 为 0xFF 会 被 转化 0x000000FF， 而 不 是 0xFFFFFFFF (EOF) 。 


既然 如 此 ， 如 果 这 里 把 定义 为 char 类 型 ， 那 么 其 结果 又 将 会 怎样 呢 ? 如 下 面 的 示例 代码 所 示 : 


char c; 
fp=fopen ("myfile,.txt", "r") ; 
if (fp 一 NULL) 
{ 
printf ("不 能 够 访问 该 文件 .\n") ; 


exit (1) ; 

} 

while ( (c=fgetc (fp) ) ! = EOF) 
Printf ("%x\n", cc) ; 


因为 文本 文件 中 存储 的 是 ASCIl 码 ， 而 ASCIl 码 中 FF 代表 空 值 〔blank) ， 所 以 如 果 读 文件 返回 了 0xFF， 也 就 说 明 已 经 到 了 文本 文件 的 结尾 处 。 也 就 是 说 ， 在 语 

名 “while ( (c=fgetc (fp) ) ! =EOF) ”中 ， 当 读 取 的 字符 为 0xFF 时 ， 子 语句 “c=fgetc (fp) ”中 的 “fgetc (fp) ”的 值 由 0x000000FF 转 换 为 char 类 型 ( 即 c 等 于 0xFF) ; 而 在 执行 子 语 

句 “c! =EOF” 时 ， 字 符 与 整数 比较 ，c 被 转换 为 0xFFFFFFFF， 条 件 成 立 ， 遇 到 空格 字符 时 就 退出 。 由 此 可 见 ， 如 果 是 二 进 制 文件 ， 其 中 可 能 会 包含 许多 0xFF， 因 此 不 能 把 读 到 EOF 作 为 文件 结束 的 条 件 ， 
而 此 时 只 能 使 用 feof () 函数 。 


再 假如 ， 这 里 又 将 c 定 义 为 unsigned char 类 型 ， 结 果 会 与 上 面 的 char 类 型 相同 吗 ? 如 下 面 的 示例 代码 所 示 : 


unsigned char cj; 

fp=fopen ("myfile.txt", "r") ; 

if (fp 一 NULL) 

{ 
printf ("不 能 够 访问 该 文件 .\n") ; 
exit (1) ; 


} 
while ( (c=fgetc (fp) ) ! = EOF) 


printf 【TSD -六 


在 上 面 的 “while ( (c=fgetc (fp) ) ! =EOF) ”语句 中 ， 就 算是 语句 “fgetc (fp) ”返回 的 结果 为 -1 ( 即 0xFFFFFFFF) ， 但 通过 语句 “c=fgetc (fp) ”对 其 强制 转换 unsigned char 类 型 ， 即 c 
等 于 0xFF。 而 在 执行 子 语句 “c! =EOF” 时 ，c 被 转换 成 0xX000000FF， 永 远 也 不 可 能 等 于 0xFFFFFFFF， 因 此 表达 式 “c! =EOF” 将 永远 成 立 。 


由 此 可 见 ， 只 有 将 c 定 义 成 int 类 型 的 变量 ， 才 能 够 与 fgetc 函 数 返回 类 型 一 致 。 


建议 80: 尽量 使 用 feof 和 ferror 检 测 文件 结束 和 错误 


正如 前 面 所 讲 ，fgetc (或 者 getc) 函数 返回 EOF 并 不 一 定 就 表示 文件 结束 ， 读 取 文件 出 错时 也 会 返回 EOF。 即 EOF 宏 不 但 能 够 表示 读 到 了 文件 结尾 这 一 状态 ， 而 且 还 能 表示 1/O 操 作 中 的 读 、 写 错误 以 
及 其 他 一 些 关联 操作 的 错误 状态 。 很 显然 ， 仅 赁 返回 EOF (-1) 就 认为 文件 结束 显然 是 不 正确 的 。 


也 正 因为 如 此 ， 我 们 需要 使 用 feof 函 数 来 蔡 换 EOF 宏 检测 文件 是 否 结束 。 当 然 ， 在 用 feof 函 数 检测 文件 是 否 结束 的 同时 ， 也 需要 使 用 ferror 函 数 来 检测 文件 读 取 操作 是 否 出 错 ， 当 ferror 函 数 返 回 为 真 时 
就 表示 有 错误 发 生 。 在 实际 的 程序 中 ， 应 该 每 执行 一 次 文件 操作 ， 就 用 ferror 函 数 检测 是 否 出 错 。 


其 中 ， 文 件 结束 检测 函数 feof 的 一 般 原型 如 下 : 


int feof (FILE *fp) ; 


值得 注意 的 是 ， 函 数 feof 只 用 于 检测 流 文件 ， 当 文件 内 部 位 置 指 针 指 向 文件 结束 时 ， 并 未 立即 置 位 FILE 结 构 中 的 文件 结束 标记 ， 只 有 再 执行 一 次 读 文件 操作 ， 才 会 置 位 结束 标志 ， 此 后 调用 feof 才 会 返 


回 为 真 。 看 下 面 的 示例 代码 : 


int main (void) 


FILE *fp=NULL; 

char c; 

fp=fopen ("myfile.txt", "r") ; 

if (fp 一 NULL) 

{ 
Printf ("不 能 够 访问 该 文件 .\n") ; 
exit (1) ; 

} 

while (! feof (fp) ) 

{ 


c= fgetc (fp) ; 

Printf ( "SC NS &; 6) 
} 
fclose (fp) ; 
fp=NULL; 


这 里 假设 “myfile.txt” 文 件 中 存储 的 是 “ABCDEF” ， 从 表面 上 看 ， 该 示例 代码 的 输出 结果 应 该 是 “ABCDEF”。 但 实际 情况 并 非 如 此 ， 你 会 发 现 最 终 输出 结果 会 多 输出 一 个 结束 字符 EOF (这 里 的 
EOF 是 fgetc 函 数 的 返回 值 ， 并 不 是 文件 中 存在 的 EOF) ， 运 行 结果 如 图 9-9 所 示 。 


EB CVWWindowsvsystem32cmd,exe 


图 9-9 示例 代码 的 运行 结果 (Microsoft Visual Studio 2010) 


因此 ， 为 了 解决 上 述 情况 ， 需 要 在 “while (! feof (fp) ) ”循环 语句 中 加 以 判断 ， 如 下 面 的 代码 所 示 : 


int main (void) 
{ 
FILE *fp=NULL; 
char cc; 
fp=fopen ("myfile.txt", "r") ; 
if (fp 一 NULL) 
{ 
printf ("不 能 够 访问 该 文件 .\n") ; 
和 


while (! feof (fp) ) 
{ 


c=fgetc (fp) ; 
if (c! =-1) 
{ 
Printf ("Se; ESD BZ Gy 3 


} 


} 
fclose (fp) ; 
fp=NULL; 


当然 ， 也 可 以 采用 下 面 的 这 种 方式 进行 判断 : 


while (true) 


c=fgetc (fp) ; 
if (feof (fp) ) 
{ 

break; 
i 


Printf ("6 Vimwinn, &@, Cy) 这 


或 者 采用 如 下 形式 : 


c= fgetc (fp) ; 

while (! feof (fp) ) 

{ 
Printf (SC NS Ci ©) ; 
c= fgetc (fp) ; 


不 论 采 用 上 述 3 种 方式 的 哪 一 种 ， 都 能 够 得 到 如 图 9-10 所 示 的 正确 结果 。 


上 CAWindowsvsystem32Vvcrmd.exe 


图 9-10 “示例 代码 的 运行 结果 (Microsoft Visual Studio 2010) 


正如 上 面 所 阐述 的 ， 在 使 用 feof 函 数 检 测 文件 是 否 结束 的 同时 ， 还 需要 使 用 ferror 函 数 来 检测 文件 读 取 操 作 是 否 出 错 ， 当 ferror 函 数 返回 为 真 时 就 表示 有 错误 发 生 。 如 下 面 的 示例 代码 所 示 : 


while (! feof (fp) ) 


if ( ferror ( fp ) ) 

{ 
perror ("error") ; 
break; 


} 

c=fgetc (fp) ; 
if (c! =-1) 

{ 


} 
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除 此 之 外 ， 最 后 还 需要 调用 clearerr 函 数 来 清除 文件 出 错 标 志和 文件 结束 标志 ， 将 其 置 为 0。 如 下 面 的 示例 代码 所 示 : 


if ( ferror (fp) ) 
{ 


clearerr (fp) ; 
/ 关 炎 夫 夫 大 赤 赤 炎 灾 灾 夫 计 大 人 


建议 81: 尽量 使 用 fgets 替 换 gets 函 数 


每 当 讨论 gets 函 数 时 ， 大 家 不 由 自主 地 就 会 想起 1988 年 的 “互联 网 蠕虫 ”， 它 在 UNIX 操 作 系统 的 finger 后 台 程序 中 使 用 一 个 gets 调 用 作为 它 的 攻击 方式 之 一 。 很 显然 ， 对 蠕虫 病毒 的 实现 来 阅 ，gets 函 
数 的 功劳 不 可 小 视 。 不 仅 如 此 ，GCC 也 不 推荐 使 用 gets 和 puts 函 数 。 那 么 ， 究 竟 是 什么 原因 导致 gets 函 数 这 么 不 招 人 待 见 呢 ? 


我 们 知道 ， 对 于 gets 函 数 ， 它 的 任务 是 从 stdin 流 中 读 取 字 符 串 ， 直 至 接收 到 换行 符 或 EOF 时 停止 ， 并 将 读 取 的 结果 存放 在 buffer 指 针 所 指向 的 字符 数组 中 。 这 里 需要 注意 的 是 ， 换 行 符 不 作为 读 取 串 的 
内 容 ， 读 取 的 换行 符 被 转换 为 null (\0') 值 ， 并 由 此 来 结束 字符 捉 。 即 换行 符 会 被 丢弃 ， 然 后 在 末尾 添加 null ( \0 ) 字符 。 其 函数 的 原型 如 下 : 


char* gets (char* buffer) ; 


如 果 读 入 成 功 ， 则 返回 与 参数 buffer 相 同 的 指针 ; 如 果 读 入 过 程 中 遇 到 EOF 或 发 生 错 误 ， 返 回 NULL 指 针 。 因 此 ， 在 遇 到 返回 值 为 NULL 的 情况 ， 要 用 ferror 或 feof 函 数 检 查 是 发 生 错误 还 是 遇 到 EOF。 


函数 gets 可 以 无 限 读 取 ， 不 会 判断 上 限 ， 所 以 程序 员 应 该 确保 buffer 的 空间 足够 大 ， 以 便 在 执行 读 操作 时 不 发 生 溢出 。 也 就 是 说 ，gets 函 数 并 不 检查 缓冲 区 buffer 的 空间 大 小 ， 事 实 上 它 也 无 法 检查 缓 
中 区 的 空间 。 如 果 函 数 的 调用 者 提供 了 一 个 指向 堆栈 的 指针 ， 并 且 gets 函 数 读 入 的 字符 数量 超过 了 缓冲 区 的 空间 ( 即 发 生 溢出 ) ，gets 函 数 会 将 多 出 来 的 字符 继续 写 入 堆栈 中 ， 这 样 就 覆盖 了 堆栈 中 原来 的 
内 容 ， 破 坏 一 个 或 多 个 不 相关 变量 的 值 。 如 下 面 的 示例 代码 所 示 : 


int main (void) 
char buffer[11]; 
gets (buffer) ; 
printf ("输出 : Ss\n", buffer) ; 
return 0; 


示例 代码 的 运行 结果 如 


9-11 所 示 。 


[ 


ELIE Hd 


文件 (E) 编辑 (E) 查看 (V) 搜索 (5) ”终端 (T) 帮助 (H) 


i -一 -一 -一 一 -~ 


[mawei@lamp c]$ gcc Test.c 

/tmp/ccQAkQryu.o: In function “main' : 

Test.c:( ,text+exll): warning: the gets' function is 
dangerous and should not be used. 

[mawei@lamp cj$ ./a.out 


aaaaaa 

输出 : aaaaaa 

[mawei@lamp cj] 车 ./a.out 
aaaaaaadadaadddadadadaadadadaadadadadadadadadaadadadaadaddadadaddad 

枉 出 : aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaadaadldna 


段 错 误 (core dumped) 
[mawei@lamp c]$ 国 


图 9-11 示例 代码 的 运行 结果 


如 图 9-11 所 示 ， 当 用 户 在 键盘 上 输入 的 字符 个 数 大 于 缓冲 区 buffer 的 最 大 界限 时 ，gets 函 数 也 不 会 对 其 进行 任何 检查 ， 因 此 我 们 可 以 将 恶意 代码 多 出 来 的 数据 写 入 堆栈 。 由 此 可 见 ，gets 函 数 是 极其 不 


安全 的 ， 可 能 成 为 病毒 的 入 口 ， 因 为 gets 函 数 没有 限制 输入 的 字符 串 长 度 。 所 以 我 们 应 该 使 用 fgets 函 数 来 替换 gets 函 数 ， 实 际 上 这 也 是 大 多 程序 员 所 推荐 的 做 法 。 


相对 于 gets 函 数 ，fgets 浮 数 最 大 的 改进 就 是 能 够 读 取 指定 大 小 的 数据 ， 从 而 避免 gets 通 数 从 stdin 接 收 字 符 捉 而 不 检查 它 所 复制 的 缓冲 区 空间 大 小 导致 的 缓存 溢出 问题 。 当 然 ，fgets 浮 数 主要 是 为 文件 


MO 而 设计 的 (注意 ， 不 能 用 fgets 函 数 读 取 二 进 制 文件 ， 因 为 fgets 函 数 会 把 二 进 制 文 件 当成 文本 文件 来 处 理 ， 这 势必 会 产生 乱码 等 不 必要 的 麻烦 ) 。 其 中 ，fgets 函 数 的 原型 如 下 : 


char *fgets (char *buf, int bufsize， FILE *stream) ; 


该 函数 的 第 二 个 参数 bufsize 用 来 指示 最 大 读 入 字符 数 。 如 果 这 个 参数 值 为 n， 那 么 fgets 浮 数 就 会 读 取 最 多 n-1 个 字符 或 者 读 完 一 个 换行 符 为 止 ， 在 这 两 者 之 中 ， 最 先 满足 的 那个 条 件 用 于 结束 输入 。 


与 gets 函 数 不 同 的 是 ， 如 果 fgets 函 数 读 到 换行 符 ， 就 会 把 它 存储 到 字符 串 中 ， 而 不 是 像 gets 函 数 那样 丢弃 它 。 即 给 定 参数 n，fgets 函 数 只 能 读 取 n-1 个 字符 (包括 换行 符 ) 。 如 果 有 一 行 超过 n-1 个 字 


符 ， 那 么 fgets 函 数 将 返回 一 个 不 完整 的 行 (只 读 取 该 行 的 前 n-1 个 字符 ) 。 但 是 ， 缓 冲 区 总 是 以 null (\0') 字符 结尾 ， 对 fgets 函 数 的 下 一 次 调用 会 继续 读 取 该 行 。 


缓冲 区 ， 要 把 参数 n 设 为 size+1， 即 多 留 一 个 位 置 存储 null (\0') 。 


也 就 是 说 ， 每 次 调用 时 ，fgets 函 数 都 会 把 缓冲 区 的 最 后 一 个 字符 设 为 null (\0 ) ， 这 意味 着 最 后 一 个 字符 不 能 用 来 存放 需要 的 数据 。 所 以 如 果 某 一 行 含有 size 个 字符 (包括 换行 符 ) ， 要 想 把 这 行 读 入 


最 后 ， 它 还 需要 第 3 个 参数 来 说 明 读 取 哪 个 文件 。 如 果 是 从 键盘 上 读 入 数据 ， 可 以 使 用 stdin 作 为 该 参数 ， 如 下 面 的 代码 所 示 : 


int main (void) 


char buffer[11]; 
fgets (buffer，11，stdin) ; 
printf ("输出 : gs\n™, buffer) ; 
return 0; 

} 


妇 


五 


对 于 上 面 的 示例 代码 ， 如 果 输 入 的 字符 串 小 于 或 等 于 10 个 字符 ， 那 么 程序 将 完整 地 输出 结果 ; 如 果 输 入 的 字符 串 大 于 10 个 字符 ， 那 么 程序 将 截断 输入 的 字符 串 ， 最 后 只 输出 前 10 个 字符 。 示 例 运 行 结果 
图 9-12 所 示 。 


mawei@lamp:~/ 程 序 设 计 /c 


交 件 {E)】 编辑 (E) 查看 (V) 搜索 (5) ”终端 站) 
[mawei@lamp c]$ gcc Test.c 
[mawei@lamp cj]$ ./a.out 

aaaaaa 

输出 : aaaaaa 


[mawei@lamp cl]$ ./a.out 
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaala 
锁 出 : aaaaaaaaaa 

[mawei@lamp c]$ 四 


图 9-12 示例 代码 的 运行 结果 


除 此 之 外 ，C99 还 提供 了 fgets 函 数 的 宽 字 符 版 本 fgetws 函 数 ， 其 函数 的 一 般 原 型 如 下 面 的 代码 所 示 : 


WwWchar t *fgetws (wchar t * restrict s, int n, FILE * restrict stream) ; 


该 函数 的 功能 与 fgets 函 数 一 样 。 


建议 82: 尽量 使 用 fputs 蔡 换 puts 函 数 


与 gets 函 数 一 样 ， 对 于 puts 函 数 ， 同 样 建议 使 用 puts 函 数 来 代替 puts 函 数 。 如 下 面 的 示例 代码 所 示 : 


int main (void) 

{ 
char buffer[11]; 
fgets (buffer, 11, stdin) ; 
fputs (buffer, stdout) ; 
return 0; 

} 


其 中 ，puts 函 数 的 原型 如 下 所 示 : 


int puts (const char *str) ; 


F 向 标准 输出 设备 (屏幕) 写 入 字符 串 并 换行 ， 即 自动 写 一 个 换行 符 〈\n ) 到 标准 输出 。 理 论 上 ， 该 函数 的 作用 与 “printf ("%s\n"，str) ; ”语句 相同 。 但 是 ，puts 函 
因此 ， 非 字符 串 或 无 null (\0 ) 字符 的 字符 数组 最 好 不 要 使 用 该 函数 打印 ， 否 则 无 法 正常 结束 。 如 下 押 


我 们 知道 ，puts 函 数 主 要 用 了 
数 只 能 输出 字符 串 ， 不 能 进行 相关 的 格式 变换 。 与 此 同时 ， 它 需要 遇 到 null (\0') 字符 才 停止 输出 。 


的 代码 所 示 : 


int main (void) 
人 
Buts (str) 3 
return 0; 


} 


此 ， 在 调用 puts 函 数 的 时 候 ， 程 序 将 不 知道 什么 时 候 停止 输出 ， 从 而 导致 输 


团 


在 上 面 的 示例 代码 中 ， 因 为 字符 数组 str 在 结尾 处 缺少 一 个 null (\0') 字符 (也 就 是 说 它 不 是 一 个 严格 意义 上 的 字符 


出 结果 未 定义 。 运 行 结果 如 图 9-13 所 示 。 


图 9-13 ”示例 代码 的 运行 结果 (Microsoft Visual Studio 2010) 


正确 的 做 法 应 该 在 字符 数组 str 的 结尾 处 添加 一 个 null (\0') 字符 ， 如 下 面 的 示例 代码 所 示 : 


char atell] = tH Bly bls. Ts Or TOT 


fputs 函 数 的 函数 原型 如 下 所 示 : 


int fputs (const char *str, FILE *stream) ; 


相对 于 puts 函 数 ，fputs 函 数 用 来 向 指定 的 文件 写 入 一 个 字符 串 (不 换行 ) 。 当 然 ， 也 可 以 使 


int main (void) 


char str[] = {'H', 'E', LD', ‘DL', ‘0', \0); 
fputs (str, stdout) ; 
return 0; 


其 运行 结果 如 图 9-14 所 示 。 


; 司 -本 


总 键 具 凌 


图 9-14 ”示例 代码 的 运行 结果 (Microsoft Visual Studio 2010) 


当然 ，fputs 函 数 主要 用 于 对 指定 文件 进行 写 入 操作 ， 如 下 面 的 示例 代码 所 示 : 


int main (void) 
长 
FILE *fp=NULL; 
fp=fopen ("myfile.txt", "wb") ; 
if (fp 一 NULL) 
{ 
Printf ("不 能 够 访问 该 文件 .\n") ; 
exit (1) ; 


} 

fputs ("this is a test", fp); 
fclose (fp) ; 

fp=NULL; 

return 0; 


Np 


运行 上 面 的 示例 代码 ， 文 件 “myfile.txt” 会 被 写 入 一 行 “this is a test” 字 符 # 


| 
申 。 


与 fgetws 一 样 ，C99 同 样 也 提供 了 fputs 函 数 的 宽 字 符 版 本 fputws， 其 函数 的 一 般 原型 如 下 面 的 代码 所 示 : 


int fputws (const wchar 七 * restrict s, FILE * restrict stream) ; 


建议 83: 合理 选择 单个 字符 读 写 函 数 


stdout 作 为 参数 进行 输出 显示 ( 它 同 样 需要 遇 到 null (\0') 字符 才 停止 输出 ) ， 如 下 面 的 代码 所 示 : 


对 于 单个 字符 的 读 写 处 理 ，(C 标 准 库 主 要 提供 了 getchar 与 putchar、getc 与 putc、fgetc 与 fputc3 组 函数 。 其 中 ，getchar 与 putchar 函 数 了 


于 标准 流 中 


王女 


字符 的 处 理 ， 即 getchar 函 数 上 


从 标准 输 


入 流 (stdin) 中 读 取 一 个 字符 ， 而 putchar 函 数 用 于 向 标准 输出 流 (stdout) 中 写 入 一 个 字符 。 如 下 面 的 示例 代码 所 示 : 


int main (void) 
长 
char c = 0; 
while ( (c= getchar () ) && (c ! = EOF) ) 
{ 
putchar (c) ; 


return 0; 


相对 于 getchar 与 putchar 函 数 ，getc 与 putc 函 数 则 是 主要 用 于 对 文件 流 中 单字 符 的 处 理 ， 即 getc 函 数 用 于 从 文件 流 中 读 取 一 个 字符 ， 而 putc 函 数 用 于 文件 向 流 中 写 入 一 个 字符 。 对 于 两 组 函数 之 间 的 
实现 区 别 ， 有 兴趣 的 读者 可 以 从 glibc 库 (比如 glibc-2.17) 的 libio 文 件 夹 中 进行 分 析 ， 如 getc 与 getchar 函 数 的 实现 分 别 如 下 : 


int _IO getc (fp) 
FILE *fp; 
{ 
int result; 
CHECK FILE (fp, EOF) ; 
IO acquire lock (fp) ; 
result = IO ) getc unlocked (fp); 
IO_release Tock (fp); 
return result; 


int getchar () 


int result; 

IO_acquire lock (_IO stdin) ; 

result = _IO getc unlocked (_ TO ) stain) ; 
IO release lock ( _IO ) stdin); 

return result; 


不 难 发 现 ， 实 际 上 getchar 等 价 于 getc (stdin) 。 


而 对 于 fgetc 与 fputc 函 数 ， 它 与 getc 与 putc 函 数 的 用 法 和 功能 基本 一 致 。 


最 后 ， 对 于 getchar 与 putchar、getc 与 putc、fgetc 与 fputc3 组 单字 符 读 写 函 数 ，C99 还 提供 了 与 之 对 应 的 3 组 宽 字符 函数 : getwchar 与 putwchar、getwc 与 putwc、fgetwc 与 fputwc。 


建议 84: 区 别 格式 化 读 写 函 数 


对 于 (语言 中 的 格式 化 读 写 函 数 ， 前 面 已 经 对 printf 与 scanf 函 数 做 了 比较 详细 的 阐述 ， 本 节 将 继续 阐述 各 个 函数 之 间 的 区 别 和 使 用 技巧 。 


建议 84-1: 区 别 printf/scanf、fprintf/fscanf 和 sprintf/sscanf 


在 这 组 函数 中 ， 相 对 于 函数 printf 和 scanf 而 言 ， 函 数 fprintf 和 fscanf 多 了 一 个 前 缀 字符 “f”。 对 于 这 个 前 缀 字符 “f”， 在 这 里 可 以 简单 地 理解 为 “File” (文件 ) 的 意思 ， 即 该 组 函数 的 读 写 对 象 不 是 
终端 设备 (键盘 和 显示 器 ) ， 而 是 磁盘 文件 。 其 函数 原型 如 下 面 的 代码 所 示 : 


int fprintf (FILE * restrict stream, const char * restrict format, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/...) 
int fscanf (FILE * restrict stream, const char * restrict format, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/...) 


其 实 ， 从 上 面 的 函数 原型 中 可 以 清楚 地 看 出 ， 函 数 fprintf 和 fscanf 与 函数 printf 和 scanf 相 比 ， 多 出 了 第 一 个 参数 “FILE*restrict stream” ( 即 文件 流 指 针 ) 。 在 C 语 言 中 ， 所 有 的 流 均 以 文件 的 形式 出 
现 ， 但 不 一 定 就 必须 是 物理 磁盘 文件 ， 当 然 也 可 以 是 对 应 于 某 个 输入 或 者 输出 源 的 逻辑 文件 。 


C 语 言 中 提供 了 5 种 标准 流 ， 如 表 9-7 所 示 。 


表 9-7 标准 流 


名 尔 说 明 


stdin 标准 输入 
stdout 标准 输出 
stderr 标准 错误 
stdprn 标准 打 
stdaux 标准 串 行 设 


在 表 9-7 所 描述 的 标准 流 中 ， 对 于 stdin、stdout 和 stderr 这 3 种 标准 流 ， 它 们 都 是 预先 定义 好 的 。 其 中 ，stdin 并 不 一 定 必须 来 自 键盘 ， 而 stdout 也 并 不 一 定 必须 显示 在 屏幕 上 ， 它 们 都 可 以 重 定向 到 磁盘 
文件 或 其 他 设备 上 。 而 对 于 stdprn 和 stdaux 标 准 流 ， 它 们 并 不 总 是 预先 定义 好 的 。 例 如 ，LPT1 (stdprn) 端口 和 COM1 (stdaux) 端口 在 某 些 操作 系统 中 可 能 是 没有 意义 的 ， 因 此 没有 必要 预先 定义 好 。 


里 需要 特别 说 明 的 是 ， 在 使 用 fprintf 函 数 打 印 程序 的 出 错 调试 信息 时 ， 尽 管 stdout 也 能 够 输出 信息 ， 但 这 里 必须 推荐 使 用 stderr， 而 不 是 stdout。 与 此 同时 ， 由 于 编译 器 在 处 理 stdout 和 stderr 时 的 
优先 级 不 一 样 ， 后 者 的 优先 级 要 高 一 些 。 因 此 ， 有 时 候 如 果 程 序 异常 退出 ，stderr 能 得 到 和 输出， 而 stdout 就 不 行 。 


由 此 可 见 ，“ 语 句 printf (http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/15541/OEBPS/Text/...) ”实际 上 相当 于 语 
句 “fprintf (stdout, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...) ”。 因 此 ， 也 可 以 通过 在 函数 fprintf 和 fscanf 中 
使 用 关键 字 stdin、stdout 与 stderr 来 读 写 终端 设备 ， 达 到 与 函数 printf 和 scanf 一 样 的 效果 。 


相对 于 函数 printf 和 scanf (面向 控制 台 ) 、fprintf 和 fscanf (面向 文件 流 ) 而 言 ， 函 数 sprintf 和 sscanf 主 要 用 于 处 理 和 分 析 字符 串 。 函 数 原型 如 下 面 的 代码 所 示 : 


int sprintf (char * restrict s, const char * restrict format, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/.. 
int sscanf (const char * restrict s, const char * restrict format, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ， con en Bees Ope 


其 中 ， 函 数 sprintf 主 要 用 于 格式 化 字符 串 、 进 制 之 间 转 换 与 连接 字符 串 等 。 如 下 


H 


的 示例 代码 所 示 : 


"Hello"; 
"World"; 


const char *sl 
const char *s2 
char str[100]; 
int i = 256; 
/* 将 i 转换 为 字符 囊 */ 

sprintf (str, "%d", i) ; 

/* 将 i 转换 为 十 六 进 制 */ 

eprintf (stre, "Oxi i) > 

/* 将 i 转换 为 八进制 */ 

sprintf (str, "0%o", i) ; 

/* 连 接 字 符 囊 sl 和 s2*/ 

sprintf (str, "%s %s", sl, s2) ; 


与 之 相对 应 ，sscanf 函 数 是 将 参数 5 的 字符 串 根据 参数 format 字 符 串 来 转换 并 格式 化 数据 ， 转 换 后 的 结果 存储 在 对 应 的 参数 内 。 该 函数 常用 于 根据 格式 从 字符 串 中 提取 数据 、 取 指定 长 度 的 字符 串 、 取 到 
指定 字符 为 止 的 字符 串 、 取 仅 包 含 指定 字符 集 的 字符 串 ， 以 及 取 到 指定 字符 集 为 止 的 字符 串 等。 如 下 面 的 示例 代码 所 示 : 


char str[100]; 


sscanf ("0123456789", "ss", str) ; 
/* 取 最 大 长 度 为 5 字 节 的 字符 串 */ 
sscanf ("0123456789", "%5s", str) ; 


printf ("str=%s\n", str) ; 
/* 取 遇 到 空格 为 止 的 字符 事 */ 


sscanf ("0123456789 abcdedfgh", "$%[^ ]s"， str) ; 

/* 取 仅 包含 1 到 8 和 小 写字 母 的 字符 囊 */ 

sscanf ("1234567abcdedfghABCDEF", "%[1-8a-z]s", str) ; 
/* 取 遇 到 大 写字 母 为 止 的 字符 事 */ 

sscanf ("0123456789abcdedfghABCDEF", "%[^A-2]s", Str) ; 


除 此 之 外 ， 相 对 于 函数 printf 和 scanf、fprintf 和 fscanf、sprintf/ 和 sscanf，C 语 言 还 提供 了 与 之 对 应 的 宽 字符 版 本 函数 wprintf 和 wscanf、fwprintf 和 fwscanf、swprintf 和 swscanf。 函 数 原型 如 下 面 


的 代码 所 示 : 


int wprintf (const WwWchar 七 * restrict format, 
int wscanf (const wchar t * restrict format, 
int fwprintf (FILE * restrict stream, 

Const wchar t * restrict format, 
int fwscanf (FILE * restrict stream, 
Const wchar t * restrict format, 
int swprintf (wchar t * restrict s, 
Const wchar 七 * restrict format, 
int swscanf (const wchar t * restrict s, 
const wchar t * restrict format, 


size t n, 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...) ; 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...) ; 
http://wuw.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...) ; 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/...) ; 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...) ; 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...) ; 


建议 84-2: 尽量 使 用 snprintf 蔡 代 sprintf 函 数 


众所周知 ， 虽 然 函 数 sprintf 的 功能 强大 、 简 单 易 用 ， 但 由 于 它 本 身 不 能 够 检查 目标 字符 串 的 长 
数 要 确保 参数 “char*restrict s” 有 足够 大 的 空间 ， 否 则 该 函数 在 不 做 任何 提示 的 情况 下 就 将 “s” 溢 出 。 


度 而 可 能 造成 众多 安全 问题 ， 如 长 度 安全 性 引起 的 缓冲 区 溢出 、 类 型 安全 性 问题 等 。 也 就 是 说 ， 使 用 该 
属于 不 安全 函数 。 看 下 面 这 段 示 例 代 码 : 


其 中 ，wchar 堵 据 类 型 一 般 为 16 位 或 32 位 ,不同 C 库 有 不 同 的 规定 。 需 要 说 明 的 是 ， 它 不 等 同 于 Unicode 编 码 (但 Unicode 编 码 的 字符 一 般 以 wchar_t 类 型 存储 ) ， 


来 显示 更 多 的 字符 集 。 


芒 


int main (void) 


[2 


sprintf (str, gss"， "abcdefghijklmn123456789") ; 
int n = printf ("%s\n", Str) ; 

EEC 1) 

return 0; 


在 上 面 的 示例 代码 中 ， 很 显然 ， 语 句 “sprintf (str，"%s"，"abcdefghijkimn123456789") ”中 的 字符 串 


误 ， 如 图 9-15 所 示 。 


“abcdefghijklImn123456789"” 的 长 


mawei@lamp: 一 /程序 设计 /c 


终 庙 (T) 帮助 (H) 


文件 (FE) 编辑 (E) 查看 (V) 搜索 (5) 


[mawei@lamp c]$ gcc Test.c 
[mawei@lamp cj$ ./a.out 
abcdefghijklmnl23456789 


24 


段 错误 (core dumped) 


当然 ， 有 些 读者 可 能 会 想到 使 


下 面 的 方法 进行 限制 : 


图 9-15 


示例 代码 的 运行 结果 


度 远 远 超出 了 str 的 存储 范围 ， 将 导致 str 发 生 越界 溢出 错 


sprintf (str, %5s", "abcdefghijklmn123456789") ; 


注意 ， 这 个 时 候 干 万 不 要 被 格式 标记 “%5s” 误 导 ， 如 果 字符 


E 


因此 ， 在 C99 中 要 修正 这 一 缺陷 ， 建 议 尽量 使 


PF 


“abcdefghijkImn123456789” 的 长 度 远 远 超出 str 的 存储 范围 ， 依 旧 会 导致 str 发 生 越 界 溢出 错误 。 


snprintf 函 数 蔡 代 sprintf 函 数 。 相 对 于 sprintf 函 数 ，snprintf 函 数 多 了 一 个 参数 ， 其 函数 原型 如 下 面 的 代码 所 示 : 


int snprintf (char * restrict s, size 七 n， 


const char * restrict format, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...) ; 


其 中 ， 参 数 “size_t n” 表 示 最 多 可 以 从 源 串 中 复制 “n-1” 个 字符 到 目标 串 中 ， 然 后 再 在 后 面 添加 一 个 字符 串 结束 符 (\0 ) 。 因 此 ， 如 果 目 标 串 的 大 小 为 n， 将 不 会 发 生 溢出 。 即 : 


如 果 格 式 化 后 的 字符 串 长 度 小 于 n， 则 将 此 字符 串 全 部 复制 到 中， 并 向 其 后 添加 一 个 字符 串 结束 符 〈\0') 。 


如 果 格 式 化 后 的 字符 串 长 度 大 于 等 于 n， 则 只 将 其 中 的 “n-1” 个 字符 复制 到 s 中 ， 并 向 其 后 添加 一 个 字符 串 结束 符 (^\0') 。 


下 面 通过 使 用 snprintf 函 数 来 替换 sprintf 函 数 以 解决 上 面 所 发 生 的 越界 溢出 错误 ， 示 例 代码 如 下 所 示 : 


int main (int argc， char* argv[]) 


{ 


char str[5]; 


snprintf (str, 3, "%s", "abcdefghijklmn123456789") ; 
int n = printf ("“%s\n", str) ; 

printf ("Nn", 2) 

return 0; 


这 样 ， 通 过 使 用 缓冲 区 大 小 有 限制 的 C 函 数 版 本 可 以 降低 缓冲 区 溢出 发 生 的 可 能 性 ， 从 而 不 会 对 原始 代码 产生 实质 的 变化 ， 其 运行 结果 如 图 9-16 所 示 。 


mawei@lamp: 一 /程序 1 


文件 ([E) 编辑 (E) 查看 (V) 搜索 (5) ” 阁 端 (TI) 才 助 (H) 


[mwei@lamp c]$ gcc Test.c 


[mawei@lamp cj 车 ./a.out 
ab 

3 

[mawei@lamp cl] 车 国 


网 


9-16 ”示例 代码 的 运行 结果 


建议 84-3: 区 别 vprintf/vscanf、vfprintf/vfscanf、vsprintf/vsscanf 和 vsnprintf 


相对 于 前 面 的 printf/scanf、fprintf/fscanf、sprintf/sscanf 和 snprintf， 函 数 vprintf/vscanf、vfprintf/vfscanf、vsprintf/vsscanf、vsnprintf 多 了 一 个 前 缀 字符 “v”。 对 于 这 个 前 缀 字符 “v” ， 它 表 
示 用 一 个 参数 取代 变 长 参数 表 ， 且 此 参数 通过 调用 va_start 宏 进行 初始 化 。 其 函数 的 原型 如 下 所 示 : 


int 
int 
int 
int 
int 
int 


int 


vprintf (const char * restrict format, va list arg) ; 
Vscanf (const char * restrict format, va list arg) ; 
vfprintf (FILE * restrict stream, 

Const char * restrict format, va list arg) ; 
vfscanf (FILE * restrict stream, 

Const char * restrict format, va list arg) ; 
vsprintf (char * restrict s, 

const char * restrict format, va list arg) ; 
vsscanf (const char * restrict s, 站 

Const char * restrict format, va list arg) ; 
Vsnprintf (char * restrict s, size tn, 

Const char * restrict format, va list arg) ; 


对 于 “va_list”， 前 面 已 经 做 过 比较 详细 的 阐述 ， 这 里 就 不 再 重复 讲解 。 其 实 ， 这 两 组 函数 之 间 除 了 在 “va_list arg” 参 数 上 的 差别 之 外 ， 其 功能 完全 一 样 。 函 数 的 使 用 示例 如 下 | 


的 代码 所 示 : 


回 


FILE* fp=NULL; 


int 


{ 


Cvfprintf (const char *format, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/...) 


va list lists 

int result=0; 

va start (list, format) ; 

result = vfprintf (fp, format, list) ; 
va end (list) ; 

return result; 


main (void) 


fp = fopen ("test.txt", "w+t") ; 
if (fp 一 NULL) 
{ 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresc 
else 
Cvfprintf ("%s %d %f %c %s", "abc", 1, 3.1415926, 'z', 


"3.1415926-3.1415927") ; 
fclose (fp) ; 


同样 ， 针 对 函数 vprintf/vscanf、vfprintf/vfscanf、vsprintf/vsscanf， 也 有 与 之 相应 的 宽 字符 类 型 版 本 函数 vwprintf/vwscanf、vfwprintf/vfwscanf、vswprintf/vswscanf， 这 两 组 函数 之 间 除 类 型 的 


区 别 之 外 ， 其 函数 功能 也 完全 相同 。 对 应 的 宽 字符 类 型 版 本 函数 原型 如 下 所 示 : 


int 


int 


int 


int 


vfwprintf (FILE * restrict stream, 

Const wchar 七 * restrict format, va list arg) ; 
vfwscanf (FILE * restrict stream, 

Const wchar 七 * restrict format, va list arg) ; 
vswprintf (wchar t * restrict s, size t n, 

Const wchar t * restrict format, va list arg) ; 
Vswscanf (const wchar t * restrict s, 


Const wchar t * restrict format, va list arg) ; 
int vwprintf (const wchar t * restrict format, va list arg) ; 
int vwscanf (const wchar 旷 习 * restrict format, va Tist ry) 3 


建议 85: 尽量 使 用 fread 与 fwrite 函 数 来 读 写 二 进 制 文件 


对 文件 格式 化 读 写 函数 fprintf 与 fscanf 而 言 ， 尽 管 它 可 以 从 磁盘 文件 中 读 写 任何 类 型 的 文件 ， 即 读 写 的 文件 类 型 可 以 是 文本 文件 、 二 进 制 文件 ， 也 可 以 是 其 
来 说 ， 考 虑 到 文件 的 读 写 效率 等 原因 ， 还 是 建议 尽量 使 用 fread 和 fwrite 函 数 进行 读 写 操作 。fread 与 fwrite 函 数 的 原型 如 下 面 的 代码 所 示 : 


他 形式 的 文件 。 但 是 ， 对 二 进 制 文件 的 读 写 


size t fread (void *buf, size t size, size t Count， FILE *fp) ; 
Size : 七 fwrite (const void * buf, size tsize, size t count, FILE *fp) ; 


在 上 面 的 fread 和 fwrite 函 数 原型 中 ， 参 数 size 是 指 单个 元 素 的 大 小 〈 其 单位 是 字 节 而 不 是 位 ， 例 如 ， 读 取 一 个 int 型 数据 就 是 4 字 节 ) ， 而 参数 count 指 出 要 读 或 写 的 元 素 个 数 ， 这 些 元 素 在 buf 所 指 的 内 
存 空间 中 连续 存放 ， 共 占 “Ssize*count” 个 字 节 。 即 fread 函 数 从 文件 fp 中 读 出 “size*count” 个 字 节 保存 到 buf 中 ， 而 fwrite 把 buf 中 的 “size*count” 个 字 节 写 到 文件 p 中 。 最 后 ， 函 数 fread 和 fwrite 的 返 
回 值 为 读 或 写 的 记录 数 ， 成 功 时 返回 的 记录 数 等 于 count 参 数 ， 出 错 或 读 到 文件 末尾 时 返回 的 记录 数 小 于 count， 也 可 能 返回 0。 


需要 注意 的 是 ， 尽 管 fread 和 fwrite 函 数 可 以 对 数据 进行 成 块 读 写 ， 但 并 不 是 说 一 次 想 读 写 多 少数 据 就 能 全 部 读 写 多 少数 据 ， 毕 竟 缓 存 有 限 ， 而 且 不 同 的 操作 系统 的 缓存 大 小 也 可 能 不 一 样 。 同 时 ， 许 多 
程序 员 还 认为 函数 的 参数 (size、count) 与 位 置 对 齐 有 关 ， 甚 至 认为 语句 “fwrite (ptr，1，1024，fp) ”的 执行 效率 会 比 “fwrite (ptr，1024，1，fp) ”高 。 实 际 情况 并 非 如 此 ， 如 在 glibc-2.17 库 中 
对 fwrite 函 数 的 实现 如 下 : 


_IO size 七 _IO_fwrite (buf, size, count, fp) 
const void *buf; 
_IO size t size; 
IO size t count; 
_IO FIIE *fp; 
{ 
IO_size 七 request = size * count; 
_IO size t written = 0; 

CHECK FILE (fp 0 3 

if (request == 0) 
return 0; 

IO acquire lock (fp) ; 

到 人 IO vtable offset (fp) 1=0 || 10 fwide (fp,， -1) = -1) 
written = _IO_sputn (fp, (const char *) buf, request) ; 
IO release IocK (fp) 3; 

if (written 一 request) 
return count; 

else if (written == EOF) 
return 0; 

else 
return written / size; 


} 


从 上 面 的 fwrite 函 数 源码 实现 中 可 以 清楚 地 看 到 |: 


首先 ， 在 把 参数 size 与 count 传 进 函数 之 后 ， 第 一 步 就 是 通过 语句 “IO_size t request=size*count; ”来 计算 “size*count”， 所 以 这 两 个 参数 与 什么 位 置 对 齐 根本 没有 半点 关系 。 


其 次 ， 在 函数 返回 时 ， 如 果 整 个 写 入 成 功 (“written==request”) ， 就 返回 count; 如 果 遇 到 EOF (“written==EOF”) ， 就 返回 0; 否则 返回 “written/size”。 由 此 可 见 ， 函 数 返 回 的 是 成 功 写 
入 的 块 数 ， 而 不 是 字 节 数 (除非 size 为 1) ， 这 样 做 有 许多 好 处 。 例 如 ， 在 写 入 多 个 结构 体 时 ， 返 回 值 能 告诉 你 成 功 写 入 的 结构 体 的 个 数 。 当 然 ， 这 样 看 来 ， 前 面 
的 “fwrite (ptr，1，1024, fp) “与 “fwrite (ptr，1024，1，fp) ”语句 还 是 有 所 差别 的 。 但 是 ， 如 果 调 用 者 只 关心 是 否 全 部 写 入 成 功 ， 那 么 就 完全 没 必 要 纠结 于 语 
名 “fwrite (ptr，1，1024，fp)“ 与 “fwrite (ptr，1024，1，fp) ”之 间 的 差别 了 。 


对 于 fread 函 数 ， 其 道理 与 fwrite 函 数 完 全 一 样 ， 如 下 面 的 函数 源 代码 所 示 (glibc-2.17 库 ) : 


IO_size 七 _IO fread (buf, size, count， fp) 
Tvoid xbuf; 
IO size 七 size; 
_IO_size t count; 
_IO FILE *fp; 
{ 
IO size t bytes requested = size * Count; 
_IO size t bytes read; 
CHECK FILE (fp, 0); 
if (bytes requested 一 0) 
return 0; 


IO acquire lock (fp) ; 

bytes read = _IO_sgetn (fp, (char *) buf, bytes_requested) ; 
IO release lock (fp) ; 

return bytes requested 一 bytes read ? count : bytes read / size; 


除 此 之 外 ， 函 数 fwrite 还 与 文件 的 打开 模式 有 关 。 例 如 ， 如 果 文 件 的 打开 模式 是 “w+” ， 则 是 从 文件 指针 指向 的 地 址 开始 写 ， 蔡 换 掉 之 后 的 内 容 ， 文 件 的 长 度 可 以 不 变 ，fp 的 位 置 移动 count 个 数 ; 如 
果 文 件 的 打开 模式 为 “a+” ， 则 从 文件 的 未 尾 开 始 添加 ， 文 件 的 长 度 会 不 断 增加 。 


建议 86: 尽量 使 用 fseek 蔡 换 rewind 函 数 


对 于 文件 的 读 写 方式 ，C 语 言 不 仅 支 持 简单 地 顺序 读 写 方式 ， 还 支持 随机 读 写 ( 即 只 要 求 读 写 文件 中 某 一 指定 的 部 分 ) 。 对 顺序 读 写 方式 来 说 ， 随 机 读 写 方式 需要 将 文件 内 部 的 位 置 指针 移动 到 需要 读 
写 的 位 置 再 进行 读 写 ， 这 通常 也 被 称 为 文件 的 定位 。 对 于 文件 的 定位 ， 可 以 通过 rewind、fseek 与 ftell 函 数 来 完成 。 


其 中 ，rewind 函 数 用 于 将 文件 内 部 的 位 置 指 针 重 新 指向 一 个 流 (数据 流 或 者 文件 ) 的 起 始 位 置 。 这 里 需要 注意 的 是 ， 这 里 的 “指针 ” 表示 的 不 是 文件 指针 ， 而 是 文件 内 部 的 位 置 指针 。 即 随 着 对 文件 的 
读 写 ， 文 件 的 位 置 指针 (指向 当前 读 写字 节 ) 向 后 移动 。 而 文件 指针 指向 整个 文件 ， 如 果 不 重新 赋值 ， 文 件 指针 不 会 发 生 改 变 。rewind 函 数 的 一 般 原 型 如 下 所 示 : 


void rewind (FILE *fp) ; 


从 上 面 的 函数 原型 可 以 看 出 ，rewind 并 没有 返回 值 ， 因 此 也 无 法 做 安全 性 检查 。 如 下 面 的 示例 代码 所 示 : 


FILE *fp=NULL; 
fp=fopen ("Test.txt", "r") ; 


if (fp==NULL) 
{ 


bE 
rewind (fp) ; 


回 


在 上 面 的 示例 代码 中 ， 由 于 rewind 函 数 没 有 返 
代码 所 示 : 


值 ， 所 以 我 们 很 难 判断 “rewind (fp) ”是 否 执行 成 功 。 因 此 ， 应 该 尽量 使 用 fseek 来 替换 rewind 函 数 ， 从 而 以 验证 流 已 经 成 功 地 回 绕 。 如 下 面 的 示例 


if (fseek (fp， 0L， SEEK SET) ! = 0) 
} 


相对 于 rewind 函 数 而 言 ，fseek 函 数 的 功能 更 加 强大 ， 它 用 来 设 定 文件 的 当前 读 写 位 置 ， 从 而 可 以 实现 以 任意 顺序 访问 文件 的 不 同位 置 ， 以 实现 文件 的 随机 访问 。 其 函数 的 一 般 原 型 如 下 所 示 : 


int fseek (FILE *fp, long offset, int from) ; 


如 果 该 函数 执行 成 功 ， 和 将 指向 以 from 为 基准 ， 偏 移 offset 个 字 节 的 位 置 ， 函 数 的 返回 值 为 0; 如 果 该 函数 执行 失败 (比如 offset 超 过 文件 自身 大 小 ) ， 则 不 改变 fp 指向 的 位 
设置 errno 的 值 ， 可 以 用 perror 函 数 来 输出 错误 信息 。 


， 沙 数 的 返回 值 为 -1， 并 


对 于 fseek 函 数 中 的 参数 : 第 一 个 参数 fp 为 文件 指针 ; 第 二 个 参数 offset 为 偏 移 量 ， 它 表示 要 移动 的 字 节 数 ， 整 数 表 示 正 向 偏 黎 ， 负 数 表 示 负 向 偏 移 ， 第 三 个 参数 from 表 示 设 定 从 文件 的 哪里 开始 偏 移 ， 
取 值 范围 如 表 9-8 所 示 。 


表 9-8 from 参数 取 值 表 


起 始点 
文件 首 SEEK SET 0 
当前 位 置 SEEK_CUR 1 


文件 未 尾 SEEK_END 2 


由 表 9-8 可 知 ，SEEK_SET 表 示 从 文件 起 始 位 置 增加 offset 个 偏 移 量 为 新 的 读 写 位置 ; SEEK_CUR 表 示 从 目前 的 读 写 位 置 增加 offset 个 偏 移 量 为 新 的 读 写 位 置 ， SEEK_END 表 示 将 读 写 位 置 指向 文件 尾 后 ， 
再 增加 offset 个 偏 移 量 为 新 的 读 写 位 置 。 当 from 值 为 SEEK_CUR 或 SEEK_END 时 ， 参 数 offset 人 允许 出 现 负 值 。 如 下 面 的 示例 代码 所 示 : 


/* 将 读 st dd i / 
fseek Tp; 100L, 0) 

/* 将 读 写 位 置 移动 到 高 文件 当前 位 置 100 字 节 处 */ 
fseek (fp, 100L, 

/* 将 读 号 办 之 加 区 胡 天 作 结尾 100 字 节 处 ， / 
fseek (fp, -100L, 2) ; 

pe 将 读 写 位 置 移动 到 文件 的 起 始 位 置 * 汉 

fseek (fp，0L，SEEK SET) ; 

/* 将 读 写 位 置 移动 到 文件 尾 */ 

fseek (fp, OL, SEEK END) ; 


不 难 发 现 ， 上 面 的 语句 “ (void) fseek (fp，0L，SEEK_SET) ; ”的 作用 实际 上 等 同 于 rewind 函 数 。 与 此 同时 ， 在 使 用 fseek 函 数 时 ， 还 应 该 注意 如 下 3 点 。 


首先 ， 调 用 fseek 函 数 的 文件 指针 fp 应 该 指向 已 经 打开 的 文件 ， 否 则 将 会 出 现 错误 。 


其 次 ，fseek 函 数 一 般 用 于 二 进 制 文件 ， 当 然 也 可 以 用 于 文本 文件 。 需 要 特别 注意 的 是 ， 当 fseek 函 数 用 于 文本 文件 操作 时 ， 一 定 要 注意 回 车 换行 的 情况 。 因 为 在 一 般 浏览 工具 (如 UltraEdit) 中 ， 回 车 
换行 被 视 为 两 个 字符 0x0D 和 0x0A， 但 真实 的 文件 读 写 和 定位 却 按照 一 个 字符 0x0A 进 行 处 理 。 因 此 ， 在 碰 到 此 类 问题 时 ， 可 以 考虑 将 文件 整个 读 入 内 存 ， 然 后 在 内 存 中 手工 插入 0x0D 的 方法 ， 这 样 可 以 达到 
较 好 的 处 理 效果 。 


最 后 ，fseek 函 数 只 返回 执行 的 结果 是 否 成 功 ， 并 不 返回 文件 的 读 写 位 置 。 因 此 ， 你 可 以 使 用 ftell 函 数 来 取得 当前 文件 的 读 写 位 置 。ftell 函 数 用 于 得 到 文件 位 置 指 针 当前 位 置 相对 于 文件 首 的 偏 移 字 节 
数 。 在 随机 方式 存 取 文件 时 ， 由 于 文件 位 置 频繁 前 后 移动 ， 程 序 不 容易 确定 文件 的 当前 位 置 。 在 使 用 fseek 函 数 后， 再 调用 函数 ftell 就 能 非常 容易 地 确定 文件 的 当前 位 置 。 如 下 面 的 示例 代码 所 示 : 


long getfilelength (FILE *fp) 
{ 


long curpos=0L; 

long length=0L; 

curpos = ftell (fp) ; 

fseek (fp, 0L， SEEK END) ; 
length = ftell (fp) ; 

fseek (fp, curpos, ‘SEEK SET) 
return length; 


建议 87: 尽量 使 用 setvbuf 蔡 换 setbuf 函 数 


在 讨论 setvbuf 与 setbuf 函 数 之 前 ， 先 来 看 如 下 一 段 示例 代码 : 


int main (void) 


FILE* fp=NULL; 

nt Eds 

Const char xf1="testfprintf.1og"; 
Const char *f2="testwrite.1og"; 
fp = fopen (f1, "wb") ; 

if (fp = NULL) 

{ 


} 

fd = open (f2, O WRONLY|O CREAT|O FEXCL, 0666) ; 
if (fd < 0) 

{ 


return -1; 


return -1; 
} 
while (1) 
{ 
fprintf (fp, “fprintf-————— lo 


write (fd, "writel\n", sizeof (" ‘writel\n" 四 
Sleep (1) ; 


return 0; 


} 


在 上 面 的 示例 代码 中 ， 使 用 fprintf 函 数 对 文件 testfprintf.log 执 行 写 入 操作 ， 使 用 write 函 数 对 文件 testwrite.log 执 行 写 入 操作 。 这 里 需要 注意 的 是 ， 因 为 fprintf 函 数 会 缓冲 4096 字 节 的 数据 ， 只 有 当 达 
到 这 么 多 字 节 的 数据 时 才 会 进行 实际 的 磁盘 写 入 。 因 此 ， 运 行 上 面 的 示例 程序 ， 然 后 实时 查看 testfprintf.log 文 件 与 testwrite.log 文 件 ， 会 发 现 testfprintf.log 文 件 不 会 被 实时 写 入 ， 只 有 当 写 入 的 数据 的 大 


小 为 4096 字 节 的 倍数 的 时 候 才 会 被 写 入 


;而 Write 函 数 则 不 同 ， 因 为 它 不 进行 任何 缓冲 (直接 写 入 磁盘 ) ， 所 以 文件 testwrite.log 不 断 有 数据 写 入 ， 运 行 结果 如 图 9-17 所 示 。 


maweiailamp:= 一 /程序 设 计 /C 


文件 (E) 编辑 (E) 查看 (V) 搜索 (3) ”终端 (个 帮助 (H) 


[mawei@lamp 
[mawei@lamp 


[mawei@lamp 
-rwW-rW-T--， 
-TW-rw-r--. 
[mawei@lamp 
-TW-rw-r--. 
-TW-rw-T--. 
[mawei@lamp 
-TW-rw-T--. 
-rwW-rW-T--， 
[mawei@lamp 
-TW-rw-T--. 
-rwW-rwW-T--， 
[mawei@lamp 


c]$ gcc Test,c 
c]$ ./a.out 


C]$ ls -L test* 

1 mawei mawei © 16 月 16 22:23 testfprintf.log 

1 mawei mawei 96 16 月 16 22:23 testwrite.log 

cl$ ls -1L test* 

1 mawei mawei 8 16 月 16 22:23 testfprintf.log 
1 mawei mawei 328 16 月 16 22:24 testwrite.log 
c]$ ls -L test* 

1 mawei mawei 4996 16 月 16 22:28 testfprintf.1Log 
1 mawei mawei 2886 16 月 16 22:29 testwrite.log 
c]$ ls -L test* 

1 mawei mawei 8192 16 月 16 22:32 testfprintf.log 
1 mawei mawei 5488 16 月 16 22:35 testwrite.log 


cl$ [| 


图 9-17 示例 代码 的 运行 结果 


在 上 面 的 示例 中 不 难 发 现 ， 通 过 提供 缓冲 区 可 以 尽 可 能 减少 read 和 write 调 用 的 次 数 ， 从 而 降低 执行 |/O 的 时 间 。 在 C 语 言 中 ， 标 准 I/O 库 提供 了 3 种 类 型 的 缓冲 。 


(1) 全 缓冲 


在 进行 /MO 操作 时 ， 只 有 当 IMO 缓 冲 
用 malloc 来 获得 需要 使 用 的 缓冲 区 。 


区 被 填 满 时 ， 才 进行 实际 的 /O 操 作 。 对 于 驻 留 在 磁盘 上 的 文件 ， 通 常 就 是 由 标准 MO 库 来 实施 全 缓冲 的 。 在 一 个 流 上 执行 第 一 次 VO 操 作 时 ， 相 关 标 准 /O 函 数 通 常 调 


在 默认 情况 下 ， 全 缓冲 的 缓冲 区 可 以 由 标准 MO 例 程 自动 刷新 。 当 然 ， 也 可 以 通过 调用 fflush 函 数 来 强制 刷新 一 个 数据 流 。 但 需要 特别 注意 的 是 ， 在 标准 MO 库 方面 ，flush 函 数 意味 着 将 缓冲 区 中 的 内 容 


写 到 磁盘 上 而 在 终端 驱动 程序 方面 ，flush 函 数 则 表示 丢弃 已 存储 在 缓冲 区 中 的 数据 。 


(2) 行 缓冲 


在 这 种 情况 下 ， 只 有 当 在 输入 和 输出 中 遇 到 换行 符 时 ， 才 执行 实际 的 MO 操作 。 当 然 ， 因 为 标准 MO 库 用 来 收集 每 一 行 的 缓冲 区 的 长 度 是 固定 的 ， 所 以 只 要 填 满 了 缓冲 区 ， 即 使 还 没有 写 一 个 换行 符 ， 也 


必须 进行 MO 操 作 。 


很 显然 ， 它 允许 我 们 一 次 输出 一 个 字符 (如 fputc 函 数 ) ， 但 只 有 在 写 完 一 行 之 后 才 进行 实际 MO 操作 。 当 流 涉及 一 个 终端 时 ， 通 常 使 用 行 缓冲 。 例 如 ， 使 用 最 频繁 的 printf 函 数 就 是 采用 行 缓冲 ， 所 以 


感觉 不 出 缓冲 的 存在 。 


(3) 不 带 缓冲 


标准 IO 库 不 对 字符 进行 缓冲 存储 。 在 一 般 情 况 下 ， 标 准 错误 流 stderr 通 常 也 是 不 带 缓冲 的 。 


相对 于 这 些 系统 默认 的 情况 ， 也 可 以 通过 调用 标准 库 函 数 setbuf 和 setvbuf 来 更 改 缓冲 类 型 。 函 数 setbuf 和 setvbuf 将 使 得 在 打开 文件 后 用 户 可 以 建立 自己 的 文件 缓冲 区 ， 而 不 使 用 由 fopen 函 数 打开 文 
件 所 设 定 的 默认 缓冲 区 。 函 数 setbuf 和 setvbuf 的 一 般 函数 原型 如 下 所 示 : 


void setbuf (FILE *fp, char *buf) ; 
int setvbuf (FILE *fp, char *buf, int mode, size t size) ; 


使 用 setbuf 与 setvbuf 函 数 指定 文件 的 缓冲 区 一 定 要 在 文件 读 写 之 前 。 一 旦 用 户 自己 指定 了 文件 的 缓冲 区 ， 文 件 的 读 写 就 要 在 用 户 指定 的 缓冲 区 中 进行 ， 而 不 在 系统 默认 指定 的 缓冲 区 中 进行 。 


对 于 setbuf 函 数 ， 当 指定 参数 buf 为 null 时 ，setbuf 函 数 将 使 得 文件 MO 不 带 缓冲 。 如 下 面 的 示例 代码 所 示 : 


setbuf (fp， NULL) ; 


对 setvbuf 函 数 来 说 ， 由 于 setbuf 函 数 没 有 返回 值 ， 因 此 也 无 法 确定 setbuf 函 数 的 调用 是 否 成 功 。 在 实际 使 用 中 ， 应 该 尽量 使 用 setvbuf 来 替换 setbuf 函 数 ， 以 验证 流 被 成 功 地 更 改 。 如 下 面 的 示例 代码 


所 示 : 


if (setvbuf (file, buf, buf ? IOFBF : _IONBF, BUFSIZ) ! = 0) 
{ 


对 setvbuf 函 数 ， 则 由 malloc 函 数 来 分 配 缓冲 区 ， 参 数 size 指 明了 缓冲 区 的 长 度 (必须 大 于 0) ， 而 参数 mode 则 表示 缓冲 的 类 型 ， 取 值 如 下 所 示 : 
._IOFBF， 全 缓冲 。 
._IOLBF， 行 缓冲。 


“ _IONBF， 不 缓冲 ， 此 时 忽略 buf 与 size 参 数 的 值 ， 直 接 读 写 文件 ， 不 再 经 过 文件 缓冲 区 缓冲 。 


建议 88: 谨慎 remove 函 数 删除 已 打开 的 文件 


在 一 个 已 经 打开 的 文件 上 调用 remove 函 数 ， 其 行为 是 由 编译 器 定义 的 。 如 果 确 实 要 删除 已 经 打开 的 文件 ， 应 该 尽 可 能 地 使 用 相应 平台 上 支持 该 功能 的 函数 。 否 则 ， 应 该 避免 删除 已 打开 的 文件 。 如 下 面 
的 代码 所 示 : 


fp = fopen (filename, "w+") ; 
if (fp 一 NULL) 
{ 


if (remove (filename) ! = 0) 
{ 
} 


在 上 面 的 示例 代码 中 ， 因 为 filename 所 指定 的 文件 已 经 打开 ， 因 此 在 执行 remove 函 数 时 存在 着 一 定 的 危险 性 ， 比 如 可 能 某 些 编译 器 将 不 会 删除 filename 所 指定 的 文件 。 


对 于 这 种 情况 ， 正 如 上 面 所 讲 ， 我 们 应 该 尽 可 能 使 用 相应 平台 上 支持 该 功能 的 函数 。 例 如 ， 在 POSIX 中 ， 可 以 使 用 unlink 函 数 来 删除 文件 。 如 下 面 的 示例 代码 所 示 : 


fp = fopen (filename, "w+") ; 
if (fp == NULL) 

{ 

} 

if (unlink (filename) ! = 0) 


4 


建议 89: 谨慎 rename 遂 数 重 命名 已 经 存在 的 文件 


函数 rename 的 一 般 原 型 如 下 所 示 : 


int rename (const char * oldfilename, const char * newfilename) ; 


在 rename 函 数 中 ， 如 果 newfilename 所 指向 的 文件 在 调用 rename 函 数 之 前 就 已 经 存在 ， 则 后 面 调 用 rename 函 数 的 行为 结果 是 由 系统 定义 的 。 例 如 ， 在 POSIX 系 统 上 ， 目 标 文件 会 被 删除 ; 而 在 
Windows 系 统 上 ， 后 一 次 rename 调 用 会 失败 。 


对 于 这 种 情况 ， 可 以 先 使 用 一 个 文件 检查 函数 (如 自己 定义 一 个 exists 函 数 或 使 用 系统 自身 提供 的 函数 ) 来 检查 newfilename 所 指向 的 文件 是 否 存在 。 如 果 存 在 ， 则 保留 原 有 的 文件 ， 放 弃 重 命名 。 如 
下 面 的 示例 代码 所 示 : 


if (! exists (newfilename) ) 


if (rename (oldfilename, newfilename) ! = 0) 


如 果 存 在 ， 删 除 原 有 的 文件 ， 然 后 重 命名 。 如 下 面 的 示例 代码 所 示 : 


if (! exists (newfilename) ) 
{ 
if (remove (newfilename) ! = 0) 
} 
i 
if (rename (oldfilename, newfilename) ! = 0) 


} 


第 10 章 ” 预 处 理 器 


对 C 语 言 编 译 器 而 言 (如 GCC) ， 将 一 个 源 程序 编译 成 为 可 执行 程序 一 般 需要 经 过 这 样 几 个 阶段 : 源 代码 一 预 处 理 一 编译 一 汇编 一 链接 。 在 预 处 理 阶段 ， 预 处 理 器 将 根据 已 放置 在 源 文件 中 的 预 处 理 指 
令 来 修改 源 文 件 中 的 内 容 ， 即 扫描 源 代码 文件 ， 检 查 其 中 所 包含 预 处 理 指令 的 语句 和 宏 定义 (主要 任务 为 : 插入 由 #include 预 处 理 器 指令 包含 的 文件 内 容 到 当前 指令 位 置 ， 蔡 换 由 #define 预 处 理 器 指令 定 
义 的 符号 ; 根据 条 件 编译 预 处 理 器 指令 确定 程序 的 部 分 内 容 是 否 需要 编译 ) ， 并 对 源 代码 进行 初步 转换 ， 然 后 产生 新 的 源 代码 提供 给 编译 器 。 这 样 通过 预 处 理 器 在 编译 阶段 之 前 修改 源 代 码 文件 的 方式 ， 为 
解决 “针对 于 不 同 的 计算 机 和 操作 系统 环境 等 原因 的 限制 ”提供 了 很 大 的 灵活 性 。 


实际 上 ， 在 日 常 的 编程 环境 中 ， 往 往 由 于 计算 机 和 操作 系统 环境 的 不 同等 原因 ， 一 个 环境 所 需要 的 源 代码 与 另 一 个 环境 所 需要 的 源 代码 也 可 能 有 所 不 同 。 然 而 在 许多 情况 下 ， 我 们 都 可 以 把 用 于 不 同 环 
境 的 源 代码 放 在 同一 个 文件 中 ， 然 后 在 预 处 理 阶 段 修 改 这 些 源 代 码 ， 使 之 适应 不 同 的 计算 机 和 操作 系统 环境 的 限制 。 这 样 不 仅 可 以 改善 程序 的 设计 环境 ， 提 高 程序 的 通用 性 、 可 读 性 、 可 修改 性 、 可 调试 


性 、 可 移植 性 和 方便 性 ， 而 且 易 于 模块 化 。 


建议 90: 谨慎 宏 定义 


对 于 宏 定 义 ， 相 信 大 家 是 再 熟悉 不 过 了 ， 它 又 被 称 为 宏 代 换 或 者 宏 蔡 换 ， 简 称 为 宏 。 宏 的 使 用 不 仅 可 以 有 效 提高 代码 的 可 读 性 ， 减 少 代码 的 维护 成 本 ， 同 时 还 方便 修改 与 调试 跟踪 程序 。 但 是 ， 由 于 C 
语言 中 的 宏 缺 少 必要 的 类 型 检查 ， 因 此 一 定 要 在 程序 中 谨慎 使 用 ， 以 避免 带 来 不 必要 的 麻烦 。 


建议 90-1: 在 使 用 宏 定义 表达 式 时 必须 使 用 完备 的 括号 


对 函数 而 言 ， 宏 只 是 简单 的 字符 替换 。 但 是 ， 在 进行 宏 蔡 换 时 ， 如 果 不 使 用 括号 保护 各 个 宏 参 数 ， 那 么 将 很 可 能 产生 意 想不到 的 结果 。 看 下 面 这 段 示 例 代码 : 


#define SQUARE (x) x *x 

int main (void) 

{ 
int x=8; 
printf ("%d\n", SQUARE (x) ) ; 
printf ("“%d\n", SQUARE (x+2) ) ; 
return 0; 


对 于 上 面 这 段 示 例 代码 ， 当 程序 执行 “SQUARE (x) ”语句 时 ， 实 际 上 它 是 在 执行 “x*x“” 语句， 因此 可 以 得 出 正确 的 结果 64。 但 是 ， 当 执行 继续 “SQUARE (x+2) ”语句 时 ,意外 产生 了 ， 如 图 10- 
1 所 示 。 


maweiG@lamp: 二 /程序 设计 / 


文件 (E) 雹 答 (E) 查看 (VY) 搜索 (5) ”终端 (T) 才 助 (H) 
[mawei@lamp cl]$ 可 CC Test,.c 


[mawei@lamp cl] 车 ./a.out 
64 
26 


图 10-1 示例 代码 的 运行 结果 


这 是 什么 原因 呢 ? 为 什么 语句 “SQUARE (x+2) ”的 执行 结果 并 不 是 我 们 预料 的 100， 而 是 26。 其 实 ， 原 因 很 简单 ，SQUARE 宏 中 的 参数 x 被 文本 “x+2” 所 替换 ， 因 此 语句 “SQUARE (x+2) ” 实 
际 上 就 变 成 了 “x+2*x+2”。 在 这 里 ， 宏 替换 所 产生 的 表达 式 并 没有 按照 预想 的 次 序 进行 求 值 ， 所 以 其 结果 为 26。 


要 解决 这 个 问题 ， 方 法 也 很 简单 ， 我 们 只 需要 在 宏 定义 中 加 上 两 个 括号 就 可 以 轻松 解决 ， 如 下 面 的 代码 所 示 : 


#define SQUARE (x) (x) * (x) 


现在 , 语句 “SQUARE (x+2) ”被 替换 成 ”(x+2) * (x+2) ”来 执行 ， 从 而 产生 了 我 们 预期 的 结果 100。 尽 管 如 此 ， 这 样 的 宏 定义 依然 会 产生 许多 问题 ， 继 续 来 看 下 面 一 段 示例 代码 : 


#define DOUBLE (x) (x) + (x) 

int main (void) 

{ 
int x=4; 
printf ("%d\n", DOUBLE (x+1) ) ; 
printf ("%d\n", 10*DOUBLE (x+1) ) ; 
return 0; 


在 上 面 的 示例 代码 中 ,语句 “DOUBLE (x+1) ”被 替换 成 ”(x+1) + (x+1) ”。 相 对 应 , 语句 “10*DOUBLE (x+1) ”也 被 替换 成 “10* (x+1) + (x+1) ”。 因 此 , 语 
句 “10*DOUBLE (x+1) ”的 结果 并 不 是 我 们 所 期 望 的 100， 而 是 55。 其 运行 结果 如 图 10-2 所 示 。 


mawei@lamp: 一 /程序 设 计 /c 
文件 (F) 编辑 (E) 查看 (V】 搜索 (S) ” 疼 端 (T) 帮助 (HI) 


[mawei@lamp cj]$ gcc Test.c 


[mawei@lamp cj] 车 ./a.out 
19 
55 


10-2 示例 代码 的 运行 结果 


在 宏 定义 中 使 


彻底 避免 这 些 问 题 ， 就 需 


由 此 可 见 ， 并 不 是 使 用 了 括号 就 一 定 能 够 避免 出 错 。 


括号 完备 地 保护 各 个 宏 参 数 。 如 下 面 的 示例 代码 所 示 : 


#define DOUBLE (x) + (x) ) 


( (zx) 
#define SQUARE (x) ( (x) * (x) ) 
#define MAX (x, y) (((x)>(y)) ? (x) (y) ) 
#define MIN (x, y) (((x)<(y)) ? (x) (y) ) 


这 样 ， 上 面 的 问题 将 不 复 存在 。 


最 后 ， 在 宏 定义 中 还 需要 注意 如 下 几 点 : 


六 :各 
4 


宏 名 一 般 用 大 写字 符 串 表示 ， 宏 名 和 参数 的 括号 间 不 能 够 有 空格 ， 末 尾 不 能 够 添加 分 号 


“ 因为 宏 只 是 简单 的 字符 替换 ， 不 做 任何 计算 与 表达 式 求解 。 因 此 ， 宏 定义 也 不 存在 任何 类 型 问题 ， 它 的 参数 也 是 无 类 型 的 。 
' 宏 替 换 是 在 编译 前 进行 ， 因 此 不 分 配 内 存 ， 且 不 占 运 行 时 间 。 
“ 如 果 宏 定义 包含 多 个 表达 式 ， 必 须要 使 用 大 括号 将 其 括 起 来 。 如 下 面 的 示例 代码 所 示 : 
#define INITIAL (x, Y) \ 
{\ 
x=1;\ 
y=1;\ 
} 
在 上 面 的 代码 中 ， 如 果 没 有 这 个 大 括号 ， 宏 定义 中 的 多 条 表达 式 很 有 可 能 只 有 第 一 句 会 被 执行 ， 因 此 必须 使 用 大 括号 将 其 括 起 来 。 


建议 90-2: 尽量 消除 宏 的 副作用 


里 
和 映 


在 C 语 言 中 ， 宏 定义 可 以 简单 地 划分 为 有 参数 与 无 参数 两 类 。 而 对 于 有 参数 的 宏 ， 


然 与 函数 有 几 分 相似 ， 但 却 很 容易 产生 副 作 


， 引 发 起 许多 难以 意料 的 问题 ， 如 下 面 的 示例 代码 所 示 : 


#define SQUARE (x) ( (x) 
int fsquare (int x) 


{ 


wa ) 


return x * x; 
} 
int main (void) 


{ 


int r2=0; 
r1=SQUARE (X1++) ; 


printf ("xl = %d, rl = %d\n", xl1, rl); 
r2 = fsquare (x2++) ; 
printf ("x2 = %d, r2 = %d\n", x2, r2) ; 


return 0; 


的 原 


因 , 其 


运行 结果 与 fsquare 函 数 的 运行 结果 却 不 完全 相同 ， 如 图 10-3 所 示 。 


在 上 面 的 示例 代码 中 ， 从 表面 上 看 SQUARE 宏 与 fsquare 函 数 的 功能 相同 。 但 是 ， 由 于 SQUARE 宏 产 生 副 作 


文件 (E) 编辑 (E) 查看 (V) 搜索 G) 


-= 一 一 一 一 -一 一 一 一 一 一 - 


[mawei@lamp c]$ gcc Test.c 


[mawei@lamp cl]$ ./a.out 
Xl 18,T7]1 64 
x2 三 9,r2 = 64 


10-3 示例 代码 的 运行 结果 


因 还 是 宏 的 字符 替换 问题 。x1 之 所 以 变 成 10 而 不 是 9， 原 因 很 简单 ， 


内 部 一 个 变量 “执行 ”多 少 次 ， 


这 种 类 似 的 定义 却 产生 了 不 同 的 结果 ， 究 其 原 
时 对 其 参数 的 多 次 取 值 蔡 换 所 带 来 的 副作用 ， 


ET 带 助 (H) 


“x1++” 被 执行 了 两 次 。 这 也 就 是 我 们 常见 的 宏 在 展开 


那 就 是 在 执行 宏 蔡 换 的 时 候 ， 


它 就 自 增 (或 自 减 ) 多 少 次 ， 类 似 这 种 情况 还 有 很 多 。 如 下 面 的 代码 所 示 : 


#define MIN (x, y) ? 
/* 自 增产 生 副作用 */ 
MIN (x++， y) 


(( (x) < (y)) 


， 最 简单 有 效 的 方法 就 是 保证 宏 参 数 不 发 生变 化 ， 即 宏 参 数 尽 


为 了 避免 出 现 这 样 的 副 作 


避免 传 入 自 增 自 减 ， 如 下 面 的 示例 代码 所 示 : 


X++; 
MIN (x, y) ; 


当然 ， 如 果 必 须 在 宏 中 消除 这 个 副作用 ， 可 以 这 样 来 做 : 
#define MIN (x, y) \ 
{\ 
int x= (x 3 \ 
int y=. (ys N 
区 


这 样 ， 通 过 赋值 语句 “int x= (x) ”与 “int y= (y) ”来 保证 传 入 宏 的 参数 在 内 部 只 使 用 一 次 ， 从 而 避免 宏 的 副作用 。 调 用 示例 如 下 面 的 代码 所 示 : 


MIN (x++, y++) ; 


现在 , 传 入 “x++” 与 “y++” 都 能 够 得 到 各 自 正确 的 结果 。 这 里 的 变量 x 与 y 属 于 内 部 变量 ， 因 此 不 需要 使 用 括号 括 起 来 。 


尽管 如 此 ， 上 面 的 这 种 解决 方案 还 存在 着 一 些 瑕 姜 。 前 面 已 经 阐述 过 ， 宏 定义 只 是 简单 的 字符 蔡 换 ， 不 存在 任何 参数 类 型 问题 。 因 此 ， 实 际 的 参数 x 与 y 也 不 一 定 就 必须 是 int 类 型 的 ， 赋 值 语 
句 “int x= (x) ”与 “int y= (y) ”这 样 的 解决 方案 是 不 合适 的 。 基 于 这 个 要 求 ， 我 们 可 以 将 MIN 宏 修改 成 如 下 形式 : 


#define MIN (type, x, y) \ 
{\ 


type x= (x) ; \ 

type y= (7 ;\ 

和 
} 


这 样 ， 通 过 type 蔡 换 宏 参 数 类 型 的 方式 来 满足 其 要 求 ， 调 用 示例 如 下 面 的 代码 所 示 : 


MIN (int, xt++, y++) ; 
4 
MIN (double, x++, yt++) ; 


最 后 ， 还 需要 说 明 的 一 点 是 ， 虽 然 上 面 的 这 两 种 方法 可 以 解决 宏 的 副作用 问题 ， 但 是 也 给 代码 的 阅读 与 维护 带 来 了 一 定 的 难度 。 毕 竟 宏 只 是 简单 的 替换 而 言 ， 而 不 是 函数 ， 因 此 建议 不 要 把 过 多 的 复杂 
度 全 部 交 给 宏 来 实现 ， 也 不 向 往 宏 里 面 传 入 类 似 自 增 自 减 的 参数 。 


建议 90-3: 避免 使 用 宏 创建 一 种 “新 语言 


先 来 看 一 段 有 意思 的 代码 : 


#define BEGIN { 

#define DO do 

#define WHILE (x) while (! (x) ) 
#define END } 

DO 


BEGIN 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 
END 


WHILE (i>=0) ; 


对 于 上 面 的 代码 ， 相 信 大 家 并 不 陌生 。 因 为 宏 具 有 蔡 换 功能 ， 我 们 完全 可 以 通过 定义 宏 的 方式 给 C 语 言 标识 符号 添加 别名 ， 从 而 改变 C 语 言 的 语法 标识 ， 甚 至 可 以 定义 自己 所 谓 的 个 性 语言 或 新 语言 。 


但 是 ， 仔 细 观 察 上 面 的 代码 ， 如 果 仅 出 于 个 人 爱好 玩 玩 而 已 还 可 以 ， 如 果 在 工程 代码 中 这 样 写 ， 那 么 它 会 使 程序 很 难 被 其 他 程序 员 所 理解 ， 因 此 应 该 严格 避免 这 种 情况 的 发 生 。 


建议 91: 合理 地 选择 函数 与 宏 


在 C 语 言 中 ， 对 于 一 些 常用 或 通用 的 功能 或 代码 段 的 封装 可 以 有 两 种 方式 : 函数 和 宏 定义 。 那 么 ， 对 于 这 两 种 方式 ， 我 们 该 如 何 抉择 呢 ? 在 解决 这 个 问题 之 前 ， 有 必要 先 来 了 解 一 下 它们 之 间 的 区 别 。 


(1) 从 程序 的 执行 来 看 


函数 调用 会 带 来 额外 的 开销 ， 它 需要 开辟 一 片 栈 空间 ， 记 录 返 回 地址， 将 形 参 压 栈 ， 从 函数 返回 还 要 释放 栈 。 这 种 开销 不 仅 会 降低 代码 效率 ， 而 且 代 码 量 也 会 大 大 增加 。 而 宏 定 义 
分 配 内 存 ， 不 占 运行 时 间 ， 只 占 编译 时 间 ， 因 此 在 代码 规模 和 速度 方面 都 比 函数 更 胜 一 筹 。 


加 
而 
过 
， 
EE: 
su 
a 


(2) 从 参数 的 类 型 来 看 


函数 的 参数 必须 声明 为 一 种 特定 的 数据 类 型 ， 如 果 参 数 的 类 型 不 同 ， 就 需要 使 用 不 同 的 函数 来 解决 ， 即 使 这 些 函 数 执行 的 任务 是 相同 的 。 而 宏 定 义 则 不 存在 着 类 型 问题 ， 因 此 它 的 参数 也 是 无 类 型 的 。 
也 就 是 说 ， 在 宏 定 义 中 ， 只 要 参数 的 操作 是 合法 的 ， 它 可 以 用 于 任何 参数 类 型 。 


(3) 从 参数 的 副作用 来 看 


组 庸 置疑 ， 在 宏 定 义 中 ， 在 对 宏 参数 传 入 自 增 (或 者 自 减 ) 之 类 的 表达 式 时 很 容易 引起 副作用 ， 尽 管 前 面 也 给 出 了 一 些 解决 方案 ， 但 还 是 不 能 够 完全 杜绝 这 种 情况 的 发 生 。 与 此 同时 ， 在 进行 宏 蔡 换 
时 ， 如 果 不 使 用 括号 完备 地 保护 各 个 宏 参 数 ， 那 么 很 可 能 还 会 产生 意 想不到 的 结果 。 除 此 之 外 ， 宏 还 缺少 必要 的 类 型 检查 。 而 函数 却 从 根本 上 避免 了 这 些 情况 的 产生 。 


(4) 从 代码 的 长 度 来 看 


在 每 次 使 用 宏 时 ， 一 份 宏 定 义 代码 的 副本 都 会 插入 程序 中 。 除 非 宏 非常 得 ， 和 否则 使 用 宏 会 大 幅度 地 增加 程序 的 长 度 。 而 函数 代码 则 只 会 出 现在 一 个 地 方 ， 以 后 每 次 调用 这 个 函数 时 ， 调 用 的 都 是 那个 地 
方 的 同一 份 代 码 。 


不 难 发 现 ， 单 从 上 面 4 点 区 别 来 看 ， 函 数 和 宏 定 义 各 有 优 缺 点 ， 这 就 要 求 我 们 根据 具体 情况 具体 分 析 ， 合 理 地 对 二 者 进行 取舍 。 看 下 面 两 个 封装 示例 : 


/* 宏 定义 的 方式 */ 
#define MAX (x, y) (((x)>(y)) ? (x) (y) ) 
#define MIN (x, y) (((x)<(y)) ? (x) (y) ) 


/* 蚤 数 的 方式 */ 
int max (int x, int y) 
{ 


return (wy? x: Ws 
int min (int x, int y) 


return (x<y? x: Y) ; 


} 


从 表面 上 来 看 这 两 个 示例 ， 使 用 宏 的 封装 方式 明显 优 于 函数 的 方式 ， 原 因 很 简单 : 如 果 这 里 要 继续 比较 两 个 浮 点 类 型 数 的 大 小 时 ， 就 不 得 不 再 写 两 个 专门 针对 浮 点 类 型 数 的 比较 函数 ， 对 于 其 他 类 型 数 
的 比较 以 此 类 推 ;而 宏 定义 因为 不 存在 任何 类 型 问题 ， 因 此 可 以 用 于 整 型 、 长 整 型 、 浮 点 型 以 及 其 他 任何 可 以 使 用 “> ”与 “<” 操 作 符 比 较 值 大 小 的 类 型 ， 正 所 谓 一 劳 永 逸 。 


但 是 ， 假 如 我 们 这 里 需要 调用 上 面 的 MAX 宏 来 寻找 i1、i2、i3、i4 与 i5 5 个 数 的 最 大 者 (甚至 更 多 数 ) ， 如 下 面 的 示例 代码 所 示 : 


int i1=0; 
int i2=]; 
int i3=2; 
int i4=3; 
int i5=4; 
int max=MAX (il, (MAX (i2, (MAX (i3, MAX (i4, i5) ) ) ) ) ); 


接 下 来 ,编译 器 对 语句 “MAX (i1， (MAX (i2， (MAX (i3，MAX (i4, i5) ) ) ) ) ) ”进行 展开 如 下 : 


CEniyel A MM A MA 


上 面 的 展开 代码 看 起 来 很 郁闷 ， 基 本 快 花 眼 了 。 当 然 ， 这 里 还 可 以 对 宏 调 用 语句 进行 优化 ， 如 下 面 的 示例 代码 所 示 : 


MAX (MAX (MAX (il, i2) , MAX (i3, i4) ) ，i5) ; 


现在 看 起 来 虽然 精简 许多 ， 但 还 不 是 很 乐观 ， 展 开 代 码 如 下 所 示 : 


CM E> A GT SD YE LEY 


面 对 这 种 情况 ， 有 读者 或 许 会 认为 函数 比 宏 方便 ， 代 码 也 显得 苗条 与 可 爱 多 了 。 但 不 能 够 一 概 而 论 ， 应 具体 情况 具体 分 析 。 


除 此 之 外 ， 一 些 特殊 功能 根本 无 法 用 函数 实现 时 ， 可 以 选择 使 用 宏 定义 来 实现 。 例 如 ， 参 数 类 型 无 法 作为 参数 传递 给 函数 ， 但 是 可 以 把 参数 类 型 传递 给 带 参 的 宏 ， 如 下 面 的 示例 代码 所 示 : 


#define MALLOC (n, type) ( (type *) malloc ( (n) * sizeof (type) ) ) 


现在 , 利用 MALLOC 宏 ， 就 可 以 为 任何 类 型 分 配 一 段 指定 的 空间 大 小 ， 并 返回 指向 这 段 空间 的 指针 。 如 下 面 的 示例 代码 所 示 : 


P = MALLOC (8, int) ; 


展开 以 后 的 结果 为 : 


p= (int *) malloc( (8) * sizeof (int) ) ; 


ul 


由 此 可 见 ， 宏 定义 有 时 候 还 可 以 完成 函数 不 能 够 完成 的 一 些 特殊 功能 。 因 此 ， 如 何 取舍 这 二 者 ， 还 需要 根据 具体 情况 具体 分 析 ， 千 万 不 能 够 武断 地 做 出 判断 。 一 般 来 说 ， 应 该 用 宏 去 替换 小 的 、 可 重复 
的 代码 段 ， 这 样 可 以 使 程序 运行 速度 更 快 。 当 任务 比较 复杂 ， 需 要 多 行 代码 才能 实现 时 ， 或 者 要 求 程序 越 小 越 好 时 ， 就 应 该 使 用 函数 。 


建议 92: 尽量 使 用 内 联 函 数 代 蔡 宏 


C99 标 准 中 引入 一 个 新 关键 字 inline (内 联 ) ， 用 于 定义 内 联 函数 。 它 表示 程序 员 请 求 编译 器 在 此 函数 被 调用 处 将 实现 函数 插入 ， 而 不 是 像 普通 函数 那样 生成 调用 代码 (申请 是 否 有 效 取决 于 编译 器 ) 。 
一 般 而 言 ， 它 的 优点 体现 在 省 掉 了 调用 函数 的 开销 ; 但 也 因此 可 能 会 增加 所 生成 的 目标 代码 的 尺寸 。 实 际 上 ， 即 使 没有 手工 指定 内 联 函数 ， 许 多 编译 器 也 会 选择 一 些 代码 量 较 小 且 使 用 频繁 的 函数 作为 内 联 
函数 ， 以 此 来 作为 性 能 优化 的 途径 之 一 。 


下 面 通过 一 个 示例 来 演示 内 联 函数 与 普通 函数 的 区 别 ， 如 下 面 的 代码 所 示 : 


inline int imax (int a， int b) 
{ 


retorm a hb? a by 
int max (int a, int b) 


returna>b? a: b; 
} 
int main (void) 
{ 

imax (1, 2) ; 

max (1, 2) 3 

return 0; 


bE 


上 面 的 示例 代码 分 别 定义 了 两 个 函数 ， 即 内 联 函数 imax 与 普通 函数 max。 它 们 在 GCC 编译 器 中 编译 后 ， 反 汇编 代码 如 下 : 


[maweiQ@lamp c]$ gcc Test.c -9 

[mawei@lamp c]$ objdump -dS a.out 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/... 
08048394 <imax>: 

#include <stdio.h> 

inline int imax (int a, int b) 


‘ 

8048394: 55 push  %ebp 

8048395: 89 e5 mov Sesp, %ebp 
etoum yh -a4 by 

8048397: 8b 45 08 mov 0x8 (%ebp) ,Seax 

804839a: 39 45 0c cmp %Seax, Oxc (%ebp) 

804839d: 0f 4d 45 0c cmovge 0xc (%ebp) , Seax 

} 

80483al: 5d pop sebp 

80483a2: 03 we 


080483a3 <max>: 
int max (int a, int b) 


{ 


80483a3: 55 push ”sg%ebp 

80483a4: 89 e5 mov Sesp, %ebp 
returna>b? a: b; 

80483a6: 8b 45 08 mov 0x8 (Sebp) ,Seax 

80483a9: 39 45 0c cmp geax，0xc ($ebp) 

80483ac: 0f 4d 45 0c cmovge 0xc ($ebp) ,Seax 

} 

80483b0: sd pop sebp 

80483b1: 3 Wet 


080483b2 <main>: 
int main (void) 


{ 
80483b2: 55 push  %ebp 


80483b3: 89 e5 
80483b5: 83 ec 08 
imax (1, 2) ; 
80483b8: c7 44 24 
80483bf: 00 
80483c0: c7 04 24 
80483c7: e8 c8 ff 
max (1, 2) $ 
80483cc: c7 44 24 
80483d3: 00 
80483d4: c7 04 24 
80483db: e8 c3 ff 
return 0; 
80483e0: b8 00 00 


00 


Sesp, %ebp 


$0x2, 0x4 (%esp) 


(%esp) 
8048394 <imax> 


$0x2, 0x4 (%esp) 


(Sesp) 
80483a3 <max> 


mov 
sub $0x8, Sesp 
02 00 00 movl 
00 00 00 movl SOx1， 
二 call 
02 00 00 movl 
00 00 00 movl $0xl, 
ff call 
00 mov $0x0,%eax 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/... 


项 编译 ， 那 么 情况 就 不 一 样 了 。 


其 实 ， 从 上 面 的 汇编 代码 来 看 ， 内 联 函数 imax 与 普通 函数 max 并 没有 什么 本 质 区 别 ， 内 联 函 数 imax 在 这 里 也 是 作为 普通 函数 调 有 


在 GCC 编译 器 中 通过 “gcc Test.c-g-O” 指 定 优化 选项 编译 ， 反 汇编 代码 如 下 所 示 : 


[maweiQ@lamp c]$ gcc Test.c -g -0 
[mawei@lamp c]$ objdump -dS a.out 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/... 


08048394 <imax>: 
#include <stdio.h> 


inline int imax (int a, int b) 
{ 
8048394: 55 push  %ebp 
8048395: 89 e5 mov Sesp, %ebp 
8048397: 8b 45 08 mov 0x8 (Sebp) ，g%eax 
804839a: 8b 55 0c mov Oxc (%ebp) ,Sedx 
804839d: 39 c2 cmp Seax, Sedx 
804839f: 0f 4d c2 cmovge Sedx, Seax 
returna>b? a: b; 
} 
80483a2: 5d pop sebp 
80483a3: &3 ret 
080483a4 <max>: 
int max (int a, int b) 
{ 
80483a4: 多 push  %ebp 
80483a5: 89 e5 mov Sesp, %ebp 
80483a7: 8b 45 08 mov 0x8 (Sebp) ，g%eax 
80483aa: 8b 55 0c mov Oxc (Sebp) , Sedx 
80483ad: 39 cmp Seax, %Sedx 
80483af: 0f 4d c2 cmovge %edx, Seax 
returna>b? a We 
} 
80483b2: 5d pop sebp 
80483b3: 3 ret 
080483b4 <main>: 
int main (void) 
{ 
80483b4: 55 push  %ebp 
80483b5: 89 e5 mov Sesp, %ebp 
imax (1, 2) ; 
max (1 2) 3 
return 0; 
} 
80483b7: b8 00 00 00 00 mov $0x0,%eax 
80483bc: 5d pop Sebp 
80483bd: | ret 
80483be: 90 nop 
80483bf: 90 nop 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/... 


现在 可 以 看 到 ， 在 main 函 数 中 ， 并 没有 通过 call 指 令 来 调 


大 的 


区 别 。 


实际 上 ， 内 联 (inline) 最 大 的 意义 就 在 于 它 和 static 关 键 字 的 组 合 ，static inline 函 数 能 代 蔡 绝 大 部 分 的 函数 宏 。 我 们 知道 ， 在 使 用 宏 定义 封装 函数 


imax 函 数 ，imax 函 数 的 指令 是 内 联 在 max 函 数 中 的 。 但 出 


意料 的 是 ， 在 这 里 max 函 数 也 受到 同样 的 优化 待遇 ， 这 1 


像 函数 那样 完备 的 参数 检查 能 力 。 与 此 同时 ， 目 前 的 许多 代码 编辑 器 对 宏 的 支持 也 不 是 很 好 ， 没 有 任何 参数 提示 信息 。 更 有 甚 者 ， 如 果 别 的 程序 员 在 调 


表达 式 时 ， 那 么 所 产生 的 副 作 


因此 ， 在 C99 标 准 中 ， 建 议 使 


就 不 敢 想象 了 。 


static inline 函 数 来 代替 宏 ， 如 下 


回 


的 示例 代码 所 示 : 


的 ， 如 “call 8048394<imax>” 语 句 。 但 是 ， 如 果 这 里 指定 了 优化 选 


也 看 不 出 来 二 者 有 多 


的 时 候 ， 宏 定义 本 身 只 是 简单 的 字符 串 蔡 换 ， 不 具备 
有 参数 的 宏 时 不 小 心 向 宏 参 数 传 入 一 些 自 增 或 自 减 


static inline int imax (int a, 


{ 

returna>b? a: 
} 
int max (int a, int b) 


returna>b? a: 


main (void) 
imax (1 2) 
ma (lL 2 3 
return 0; 


b: 


b: 


int b) 


现在 ， 在 GCC 编译 器 中 通过 “gcc Test.c-g-O” 指 定 优化 选项 编译 后 ， 就 能 够 清楚 地 看 见 static inline 函 数 imax 与 普通 函数 max 二 者 之 间 的 


区 别 了 ， 


汇编 代码 如 下 所 示 : 


[mawei@lamp c]$ gcc Test.c -g -0 
[maweiQ@lamp c]$ objdump -dS a.out 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/... 


08048394 <max>: 


static inline int imax (int a, 


{ 


returna>b? a: 
} 
int max (int a, int b) 
{ 
8048394: 55 
8048395: 89 e5 
8048397: 8b 45 08 
804839a: 8b 55 0c 
804839d: 39 2 
804839f: 0f 4d c2 
returna>b? a: 
} 
80483a2: 5d 
80483a3: v3 
080483a4 <main>: 
int main (void) 
80483a4 55 
80483a5 e5 


b: 


b: 


int b) 


Seax 


Oxc (Sebp) , Sedx 


push  %ebp 

mov Sesp, %ebp 
mov 0x8 (Sebp) ， 
mov 

cmp Seax, Sedx 
cmovge %edx, Seax 
pop sebp 

ret 

push  %ebp 

mov Sesp, %ebp 


return 0; 


} 

80483a7: b8 00 00 00 00 mov $0x0, Seax 
80483ac: 5d pop sebp 
80483ad: c3 et 

80483ae: 90 nop 


80483af: no 


Pp 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/... 


值得 注意 的 是 ，C99 标 准 中 的 inline 与 G6CC 编 译 器 中 的 inline 有 着 许多 的 不 同 之 处 。 


在 C99 标 准 中 ，inline 关 键 字 声明 的 函数 一 般 仅 


于 同一 文件 (.c) 


inline) ， 在 一 般 情况 下 ， 编 译 器 也 不 会 为 此 函数 生成 单独 的 目标 代码 。 


在 GCC 编译 器 中 ， 在 默认 情况 下 ( 仅 使 用 inline 
static 关 键 字 修饰 后 ( 即 static inline) ， 


inline 模 式 更 是 缩小 函数 的 使 


用 


范围 ， 仅 限于 在 同文 件 中 展开 。 


， 在 同一 文件 (. 
反而 不 可 应 用 于 外 部 文件 。 如 果 出 现 了 必须 生成 不 可 的 情况 (如 通过 函数 指针 调用 等 情况 ) ， 可 以 生成 单独 的 目标 代码 。 同 时 ， 在 GCC 编译 器 中 扩展 的 extern 


内 部 被 调用 处 展开 ， 对 外 部 文件 来 说 此 函数 不 可 用 ， 此 函数 本 身 也 不 会 生成 单独 的 目标 代码 ; 经 过 static 关 键 字 修 饰 后 〈 即 static 
但 是 ， 当 遇 到 内 联 函数 无 法 展开 时 ， 或 内 联 函数 以 地 址 的 形式 被 调用 时 ， 编 译 器 将 会 为 此 内 联 函数 生成 单独 的 代码 。 


Cc) 中 被 调用 处 当 作 内 联 函数 


展开 ， 而 在 外 部 文件 调用 中 等 同 于 普通 extern 函 数 (也 就 是 说 会 生成 单独 的 目标 代码 ) 。 但 是 ， 在 经 过 


一 般 情况 下 ， 尽 量 避 免 将 内 联 函数 写成 递归 函数 或 调用 递归 函数 。 同 时 ， 关 键 字 inline 应 当 用 于 函数 声明 ， 而 非 函数 实现 。 但 是 ， 由 于 不 同 的 编译 器 对 关键 字 inline 所 修饰 函数 的 调用 范围 不 同 ， 如 果 确 
定 内 联 函 数 仅 限 应 用 于 同一 文件 ， 则 可 以 将 内 联 函 数 的 声明 和 实现 都 放 在 同一 个 文件 (.c) 中 ; 否则 将 其 放 入 头 文件 (.h) 中 ， 这 样 包 含 了 此 头 文件 的 任何 文件 都 可 以 使 用 它 。 


建议 93 : 掌握 预定 义 宏 


对 于 预定 义 宏 ， 相 信 大 家 并 不 陌生 。 为 了 方便 处 理 一 些 有 
两 个 单词 组 成 ， 那 么 中 间 以 ““ 


的 信息 ， 
(一 条 下 划 线 ) 进行 连接 。 并 且 ， 宏 名 称 一 般 都 由 大 写字 符 组 成 。 


预 处 理 器 定义 了 一 些 预 处 理 标 识 符 ， 也 就 是 预定 义 宏 。 预 定义 宏 的 名 称 都 是 以 “”_” (两 条 下 划 线 ) 开头 和 结 


尾 的 ， 如 果 宏 名 是 由 


在 日 常 项 目 编程 中 ， 预 定义 宏 尤其 对 多 目标 平台 代码 的 编写 通常 具 


有 重大 意义 。 通 过 预定 义 宏 ， 程 序 员 使 


“#ifdef” 与 “#endif ”等 预 处 理 指令 ， 就 可 使 平台 相关 代码 只 在 适合 于 当前 平台 的 代码 上 


编译 ， 从 而 在 同一 套 代码 中 完成 对 多 平台 的 支持 。 从 这 个 意义 上 讲 ， 平 台 信息 相关 的 宏 越 丰富 ， 代 码 的 多 平台 支持 越 准确 。 


标准 C 语 言 提供 的 一 些 标准 预定 义 宏 如 表 10-1 所 示 。 


宏 


表 10-1 常用 的 标准 预定 义 宏 


描 


述 


se > 


_DATE i 前 源 文件 的 编译 日 期 用 “Mmm dd yyy ”形式 的 字符 串 常量 表示 
_FILE 当前 源 文件 的 名 称 ， 用 字符 串 常量 表示 
_ LINE 当前 源 文件 中 的 行 号 ， 用 十 进 制 整数 常量 表示 ， 它 可 以 随 夫 ine 指令 改变 
_TIME 当前 源 文件 的 最 新 编译 时 间 , 用 “hh:mm:ss” 形 式 的 字符 串 常 量 表示 
_ STDE 如 果 当 前 编译 器 符合 ISO 标准 ,那么 该 宏 的 值 为 1， 和 否则 未 定义 

如 果 当 前 编译 器 符合 C89， 那 么 它 被 定义 为 199409L ; 如 果 符 合 C99， 那 


_STDC _ VERSION _ 


么 它 被 定义 为 199901L; 在 其 他 情况 下 ， 该 宏 为 未 定义 


_ STDC HOSTED _ 


STDE EC 559 


=| 


(C99 ) 如 果 当 前 是 7 > 宏 的 值 1 六 是 


1 前 是 宿主 系统 ， 则 该 笑 
该 宏 的 值 为 0 


(C99 ) 如 果 浮 点 数 的 实现 
为 未 定义 


为 1; 如 果 半 独立 系统 ， 则 


符合 IEC 60559 标准 时 ， 则 该 宏 的 值 为 1， 否 则 


_STDC IEC 559 COMPLEX 


_STDC ISO 10646 


( C99 ) 如 果 复 数 运算 实现 符合 IEC 60559 标准 时 ， 则 该 宏 的 值 为 1， 否则 
为 未 定义 
( C99 ) 定义 为 长 整 型 常量 ，yyyymmlL 表示 wchar t 值 遵循 ISO 10646 标 


准 及 其 指定 年 月 的 修订 补充 ， 否 则 该 宏 为 未 定义 


除 标准 C 语 言 提供 的 标准 宏 之 外 ， 各 种 编译 器 也 都 提供 了 自己 的 自 定义 预定 义 宏 。 可 以 通过 表 10-2 所 示 的 指令 来 查看 不 同 编译 器 对 预定 义 宏 的 支持 情况 。 
DATE_、 


虽然 各 种 编译 器 的 预定 义 宏 不 尽 相同 ， 但 是 一 般 都 会 支持 “ 


10-4 显 示 了 GCC 编译 器 预定 义 宏 的 查看 结 


FILE _、_LINE 与 _TIME_” 这 4 种 预定 义 宏 。 


表 10-2 不 同 编译 器 的 预定 义 宏 查看 指令 


宏 指 令 (C++ ) 


clang++ -dM -E -x c++ /dev/null 


编译 器 宏 指令 (C) 
Clang/LLVM clang -dM -E -xc /dev/null 


GNU GCC/G++ gcc -dM -E -x ¢ /dev/null g++ -dM -E -x c++ /dev/null 


Hewlett-Packard C/aC++ cc -dM -E -x c /dev/null aCC -dM -E -x c++ /dev/null 


IBM XL C/C++ xlc -qshowimacros -E /dev/null xlc++ -qshowmacros -E /dev/null 


Intel ICC/ICPC icc -dM -E -xc /dev/null icpc -dM -E -x c++ /dev/null 


Oracle Solaris Studio cc -xdumpmacros -E /dev/null CC -xdumpmacros -E /dev/null 


Portland Group PGCC/PGCPP pgcc -dM -E 


maweiGiamp: 二 /程序 设计 / 


文件 (EF) 编辑 (E) 查看 (V) 搜索 (S) 终端 (T) 帮助 (H) 
[mawei@lamp cl]$ gcc -dM -E -x c¢ /dev/null 


#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 
#define 


对 于 这 些 预 定义 宏 的 应 


_DBL MIN EXP 
_ pentiumpro 1 


UINTMAX TYPE _ 
_ DEC32 EPSILON 


_ LDBL MAX EXP 


{(-1921) 


”FLT MIN 1.17549435e-38F 

CHAR BIT 8 

WCHAR MAX 2147483647 

GCC HAVE SYNC COMPARE AND SWAP 1 1 

GCC HAVE SYNC COMPARE AND SWAP 2 1 

GCC HAVE SYNC COMPARE AND SWAP 4 1 
DBL DENORM MIN 4.9466564584124654e-324 
GCC HAVE SYNC COMPARE AND SWAP 8 1 
”FLT EVAL METHOD 2 

Unix _ 光 
”DBL MIN 19 EXP 


(-367) 
__ FINITE _MATH ONLY _ 0 


GNUC PATCHLEVEL 4 


_ DEC64 MAX EXP 385 

_SHRT | MAX 32767 

LDBL MAX 1.18973149535723176592e+4932L 
long long unsigned int 
linux 1 

1IE-6DF 

unix 1 

16384 


10-4 ”查看 GCC 预 定义 宏 


用 ， 基 本 上 随处 可 见 ， 下 面 举例 介绍 。 


利用 ”DATE“ 和“ 


_TIME_” 宏 可 以 用 来 确定 程序 编译 的 时 间 。 如 下 面 的 示例 代码 所 示 : 


int main (void) 


printf ("Copyright Ce 2 人 ower ed ， Ve com\n") ; 
'Compiled of gs\n" TIME ); 


printf (" 
} 


利用 "_STDC “与 


STDC_VERSION_” 宏 可 以 编写 那些 需要 兼容 标准 C 和 非 标准 C 编 译 器 的 程序 ， 如 下 面 的 示例 代码 所 示 : 


#ifdef _STDC 

/* Some version of s 
#if de En ed (_ “oTDe 
J* C99 


0 


andard C 
ey ) a STDC VERSION >=199901L 


#elif ge fined (_ DT TESTCN ) && .__STDC_VERSION >=199409L 
en 4 


区 
ot Standar 


A 
#e. 
J 
ee 
#el. 
/*No 
#endif 


C89 but not ame ndment 1*/ 


ee not defined */ 
ndard C*/ 


利用 _FILE _、_LINE 与 _FUNCTION_ (或 者 _func_) 预定 义 宏 的 组 合 ， 在 调试 程序 的 时 候 可 以 很 简单 地 在 程序 运行 期 进行 异常 跟踪 。 如 下 面 的 示例 代码 所 示 : 


#include <stdio.h> 

#include <sys/types.h> 

#include <sys/stat.h> 

#include <fcnt1.h> 

#include <unistd.h> 

#include <stdlib.h> 

#define MESSAGE (message, assertion) \\ 


do{\ 
if (! (assertion) ) {\ 
printf ("line %d in %s (%s) ", LINE ， FILE ， FUNCTION );\ 
if (message) {\ 
printf (" : $s", message) ; \ 
} 
printf KW 3 ™ 
abort () ; \ 
I 
}while (0) 


int OpenFile (const char *filename) 


int fd; 

MESSAGE ("文件 名 称 不 能 够 为 空 "，filename) ; 

MESSAGE ("文件 不 存在 "，0==access (filename, F_OK) ) ; 
fd = open (filename, O RDONLY) ; 

close (fd) ; - 

return 0; 


int main (int argc, char **argv) 
MESSAGE ("命令 参数 不 能 够 为 空 "，argc==2) ; 


OpenFile (argv[1]) ; 
return 0; 


其 中 ，_FILE_、_LINE 与 _FUNCTION_ (或 者 _func_) 预定 义 宏 分 别 表示 文件 名 、 行 数 与 函数 名 ， 这 样 就 可 以 帮助 我 们 精确 地 定位 出 现 异 常 的 文件 、 行 数 与 函数 名 。 运 行 结果 如 图 10-5 所 示 。 


maweiaclamp: 一 /程序 设计 / 
次 忻 (EF) ”编辑 (E) 查看 (V) 搜索 (S) 终端 (了 帮助 (H) 
[mawei@lamp cj$ gcc -0 Test Test.c 


[mawei@lamp cj$ ./Test 
line 32 in Test.c(lmain) : 羡 令 参 丫 不 能 够 为 室 


己 放 弃 {core dumped) 

[mawei@lamp cj]$ ./Test tfile 

line 24 in Test.cl0penFile) ; 文件 不 存在 
己 放 弃 {core dumped ) 

[mawei@lamp c]$ ./Test Test 

[mawei@Llamp cj$ 


图 10-5 示例 代码 的 运行 结果 


加 


此 ， 在 代码 编写 中 ， 应 该 尽量 避免 自 定义 宏 与 预定 义 宏 名 称 相同 的 情况 发 生 。 


最 后 还 需要 注意 的 是 ， 如 果 用 户 重 定义 “#define “或 取消 了 “#undef” 预 定义 宏 ， 那 么 其 结果 是 “未 定义 ”的 。 


建议 94: 谨慎 使 用 “#include” 


在 C 语 言 中 ， 文 件 包含 指令 (#include) 的 功能 是 把 指定 的 文件 插入 该 命令 行 位 置 以 取代 该 命令 行 ， 从 而 把 指定 的 文件 和 当前 的 源 程序 文件 连 成 一 个 源 文件 。 如 下 面 的 示例 代码 所 示 : 


#include <stdio.h> 

int main (void) 

{ 
printf ("hello world") ; 
return 0; 


在 预 处 理 阶 段 ， 编 译 器 首先 将 C 源 代码 中 所 包含 的 头 文件 (如 stdio.h) 编译 进来 ， 在 GCC 编译 器 中 可 以 通过 “gcc-E hello.c-o hello.i” 指 令 来 查看 相关 结果 ， 如 下 面 的 示例 代码 所 示 : 


"hello.c" 

"<built-in>" 

"< 命令 行 >" 

"hello.c" 

"/usr/include/stdio.h" 1 3 4 

8 "/usr/include/stdio.h" 3 4 

"/usr/include/features.h" 1 3 4 

361 "/usr/include/features.h" 3 4 

1 "/usr/include/sys/cdefs.h" 1 3 4 

365 "/usr/include/sys/cdefs.h" 3 4 

1 "/usr/include/bits/wordsize.h" 1 3 4 

366 "/usr/include/sys/cdefs.h" 2 3 4 

362 "/usr/include/features.h" 23 4 

385 "/usr/include/features.h" 3 4 

# 1 "/usr/include/gnu/stubs.h" 1 3 4 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach :4 Si . http://www.hzcourse.com/resource/readBook?path=/openresources/teach 
extern int ftrylockfile (FILE * stream) attribute ( (__nothrow, 
extern void funlockfile (FILE * stream) attribute ((_ nothrow )) ; 

# 938 "/usr/include/stdio.h" 3 4 

# 2 "hello.c" 2 


PNPPPPP 


井 井 非 井 井 间 间 井 井 井 间 井 间 间 


int main (void) 


{ 
Printf ("hello world") ; 
return 0; 


} 


一 个 include 命 令 只 能 指定 一 个 被 包含 文件 。 若 有 多 个 文件 要 包含 ， 则 需要 使 用 多 个 include 命 令 。 与 此 同时 ， 文 件 包 含 允 许 谋 套 ， 即 在 一 个 被 包含 的 文件 中 又 可 以 包含 另 一 个 文件 。 但 必须 注意 的 是 ， 
只 引用 必需 的 头 文件 ， 不 要 为 了 防止 忘记 包含 头 文件 而 在 每 个 文件 开始 添加 很 多 的 头 文件 (这 一 点 从 上 面 编 译 出 来 的 源 代码 中 也 可 以 清楚 地 得 到 答案 ) 。 


建议 95: 掌握 条 件 编译 指令 


在 C 语 言 中 ， 条 件 编译 指令 可 以 实现 源 代码 的 部 分 编译 功能 ， 可 以 根据 表达 式 的 值 或 者 某 个 特定 的 宏 来 确定 编译 条 件 ， 以 决定 编译 哪些 代码 ， 不 编译 哪些 。 


建议 95-1: 使 用 “#ifndef/#define/#endif” 防 止 头 文件 被 重复 引用 


在 C 语 言 中 ， 一 个 文件 中 可 以 包含 多 个 头 文件 ， 而 头 文件 之 间 又 是 可 以 相互 引用 的 ， 这 将 引起 一 个 文件 中 可 能 间接 多 次 包含 某 个 头 文件 ， 从 而 导致 了 某 些 头 文件 被 重复 引用 多 次 。 


例如 ， 有 3 个 文件 a.h、b.h 和 c.c， 其 中 b 文 件 中 包含 了 a.h， 而 c 文 件 中 又 分 别 包含 了 a.h 和 b.h 两 个 文件 。 于 是 问题 出 来 了 ， 由 于 赃 套 包含 文件 的 原因 ， 头 文件 a.h 被 两 次 包含 在 源 文件 中。 在 这 里 ， 如 果 
头 文件 中 没有 防止 多 次 编译 的 语句 ， 有 可 能 会 引起 如 下 两 种 后 果 : 


“ 某 些 头 文件 重复 引用 只 是 增加 了 编译 器 编译 的 工作 量 ， 导 致 编译 效率 降低 ， 不 会 引起 太 大 的 问题 。 但 是 ， 这 里 还 需要 说 明 的 是 ， 对 比较 大 的 工程 而 言 ， 编 译 效率 低下 也 将 是 一 件 非常 痛苦 的 事情 。 


“ 某 些 头 文件 重复 引用 ， 有 可 能 会 引起 意 想不到 的 严重 错误 。 比 如 ， 在 头 文件 中 定义 了 全 局 变量 (虽然 这 种 方式 不 被 推荐 ， 但 有 时 候 确实 需要 这 么 做 ) ， 将 会 导致 全 局 变量 被 重复 定义 。 


引用 。 如 下 面 的 示例 代码 所 示 : 


在 C 语 言 中 ， 避 免 同一 个 头 文件 被 多 次 包含 、 重 复 引 用 ， 最 常用 也 是 最 简单 的 方法 就 是 利用 “#ifndef/#define/#endif” 结 构 产生 预 处 理 块 来 防止 头 文件 被 


#ifndef _ HEADERNAME H 
#define HEADERNAME H 
/* 声 明 、 定 义 语句 */ | 
#endif 


在 上 面 的 预 处 理 块 中 ， 当 第 一 次 引用 (include) 头 文件 时 ， 由 于 “_HEADERNAME_H_” 还 没有 被 定 义 (define) 过 ,， 即 满足 “#ifndef_HEADERNAME_H_”， 从 而 执 
行 “#define_HEADERNAME_H_“” 以 及 其 他 内 容 。 


如 果 因为 编码 者 的 不 小 心 或 者 广 套 包含 等 原因 造成 了 这 个 头 文件 被 多 次 引用 (include) ， 那 么 “#ifndef_HEADERNAME_H_” 判断 条 件 将 在 第 二 次 引用 (include) 头 文件 时 得 不 到 满足 ， 因 此 不 执 
行 后 面 的 内 容 ， 直 接 跳 到 “#endif' 。 


通过 “#ifndef/#define/#endif” 结 构 产 生 预 处 理 块 ， 虽 然 能 够 避免 同一 个 头 文件 被 多 次 包含 和 重复 引用 ， 但 也 存在 一 个 致命 的 缺点 ， 那 就 是 一 旦 一 不 小 心 在 不 同 头 文件 中 定义 了 相同 的 宏 名 ， 问 题 就 
比较 麻烦 了 。 比 如 ， 可 能 会 导致 明明 看 到 存在 头 文件 ， 而 编译 器 却 硬 说 找 不 到 声明 等 问题 。 为 了 避免 这 种 情况 ， 保 证 宏 名 的 唯一 性 ， 建 议 按照 Google 公 司 的 建议 ， 头 文件 基于 其 所 在 项 目 源 代码 树 的 全 路 径 
进行 命名 。 命 名 格式 为 : 


<PROJECT> <PATH> <FILE> H_ 


其 中 ，PROJECT 表 示 项 目 名 称 ，PATH 表 示 头 文件 相对 路 径 ，FILE 表 示 文 件 名 ， 再 以 “H_” 作 为 后 缀 。 比 如 ， 在 项 目 CashRegister 中 ， 现 在 该 项 目 所 在 目录 下 的 一 个 名 为 xml 的 子 文件 夹 下 的 一 个 
parser 头 文件 ， 则 宏 定 义 如 下 : 


村 fndef CASHREGISTER XML，PRRSER H_ 
#define CASHREGISTER XML， PARSER H_ 
/* 声 明 、 定 义 语句 */ 

#endif 


当然 ， 基 于 命名 习惯 原因 ， 也 可 以 这 样 来 写 : 


#ifndef CASHREGISTER XML PRRSER H 
#define CASHREGISTER XML PARSER H 
/* 声 明 、 定 义 语句 */ 

#endif 


这 里 需要 注意 的 是 ， 由 于 编译 器 在 每 次 编译 时 都 需要 打开 头 文件 才能 判定 是 否 有 重复 定义 ， 因 此 在 编译 大 型 项 目 时 ，“#ifndef” 会 使 编译 时 间 相 对 较 长 。 


除 此 之 外 ， 你 还 可 以 使 用 “#pragma once” 方 式 来 防止 头 文件 被 重复 引用 ， 该 方式 一 般 由 编译 器 提供 ， 可 以 保证 同一 个 文件 不 会 被 包含 多 次 。 但 这 里 需要 特别 说 明 的 是 ， 该 方式 受 编译 器 的 限制 ， 有 
些 编译 器 并 不 支持 该 指令 ， 因 此 在 兼容 性 方面 表现 得 不 是 很 好 。 这 里 建议 为 了 代码 的 兼容 性 ， 宁 肯 降 低 一 些 编译 性 能 。 还 是 使 用 “#ifndef/#define/#endif” 结 构 。 


建议 95-2: 使 用 条 件 编译 指令 实现 源 代码 的 部 分 编译 


前 面 已 经 说 过 ， 条 件 编译 指令 可 以 使 编译 器 按 不 同 的 条 件 编译 不 同 的 程序 部 分 ， 因 而 产生 不 同 的 目标 代码 文件 。 这 对 于 程序 的 移植 和 调试 是 很 有 用 的 ， 尤 其 是 针对 于 跨 平台 程序 移植 的 时 候 。 在 C 语 言 
中 ， 主 要 有 如 下 条 件 编译 指令 。 


(1) #if 指 令 


该 指令 检测 表达 式 值 是 否 为 真 。 如 果 表 达 式 的 值 为 真 ， 则 编译 后 面 的 代码 直到 出 现 #else、#elif 或 #endif 为 止 ， 否 则 不 编译 。 


(2) #endif 指 令 


该 指令 用 于 终止 攻 f 指 令 。 


(3) #else 指 令 


该 指令 用 于 #if 指 令 之 后 ， 当 前 面 的 #if 指 令 的 条 件 不 为 真 时 ， 就 编译 #else 后 面 的 代码 。 


(4) #elif 指 令 


该 指令 综合 了 #else 和 #if 指 令 的 作用 。 下 面 的 示例 代码 演示 了 #if、#else、#elif 与 #endif 的 组 合 使 用 情况 。 


#if OS==1 

BeivtE ("i 
#elif OS=—2 

printf TV220 ; 
#else 
printf ("未 知 ”) 了 
#endif 


(5) #ifdef 和 #ifndef 指 令 


相对 于 #if 指 令 (检测 表达 式 的 值 是否 为 真 ) ，#ifdef 和 #ifndef 指 令 用 于 检测 指令 关键 字 后 面 的 宏 名 称 是 否 已 经 定义 。 其 中 ，#ifdef 指 令 表 示 如 果 宏 已 经 被 定义 ， 那 么 它 的 检测 结果 为 真 ， 否 则 返回 假 ; 
而 #ifndef 指 令 的 含义 正好 与 #ifdef 指 令 相 反 ， 它 表示 如 果 宏 未 被 定义 ， 那 么 它 的 检测 结果 为 真 ， 否 则 为 假 。 


在 一 般 情 况 下 ， 条 件 编译 指令 组 合 主要 有 如 下 几 种 形式 。 


1) 第 一 种 形式 如 下 : 


#ifdef 宏 名 称 
/* 程 序 段 1*/ 


e 
/* 程 序 段 2*/ 
#endif 


#els: 


它 表 示 如 果 宏 名 称 已 经 定义 ， 则 对 程序 段 1 进行 编译 ; 否则 对 程序 段 2 进行 编译 。 如 果 没 有 程序 段 2， 则 可 以 省 略 “#else”， 如 下 所 示 : 


#ifdef 宏 名 称 
/* 程 序 段 1*/ 
#endif 


2) 第 二 种 形式 如 下 : 


村 fndef 宏 名 称 
/* 程 序 段 1*/ 
e 
/* 程 序 段 2*/ 
#endif 


#els: 


#ifndef 指 令 的 含义 正好 与 #ifdef 指 令 相 反 ， 因 此 它 表示 如 果 宏 名 称 未 被 定义 ， 则 对 程序 段 1 进行 编译 ， 否 则 对 程序 段 2 进 行 编译 。 


3) 第 三 种 形式 如 下 : 


#iE 表达 式 
/* 程 序 段 1*/ 
#else 


~ 
mY 


程序 段 2*/ 
#endif 


它 表示 如 果 表达 式 的 值 为 真 ( 非 0) ， 则 对 程序 段 1 进行 编译 ， 否 则 对 程序 段 2 进行 编译 。 如 果 有 多 个 (两 个 以 上 ) 条 件 ， 则 可 以 用 #elif 指 令 ， 如 下 所 示 : 


#iE 表达 式 
程序 段 1*/ 
#elif 表达 式 

/* 程 序 段 2*/ 
#elif 表达 式 

/* 程 序 段 3*/ 


~ 
外 


底 


#else 


/* 程 序 段 4*/ 
#endif 


建议 95-3: 妙用 “defined 


在 C 语 言 中 ,， 除 了“#ifdef” 和 “#ifndef” 指 令 之 外 ， 还 可 以 使 用 defined 判 断 标识 符 是 否定 义 过 。 实 际 上 ，“#f defined” 等 价 于 “#ifdef”， 而“#if! defined” 等 价 于 “#ifndef”。 例 如 ， 下 面 
的 示例 代码 就 演示 了 如 何 使 用 defined 来 避免 重复 包含 头 文件 引起 的 重复 定义 问题 : 


#if ! defined (_CASHREGISTER XML， PARSER H ) 
#define CASHREGISTER XML PARSER 日 

/* 声 明 、 定 义 语句 */ 

#endif 


它 实际 上 等 价 于 下 面 的 代码 : 


#ifndef CASHREGISTER XML，PARSER 日 
#define JCASHREGISTER XMI, PARSER H 
/* 声 明 、 定 义 语句 */ 

#endif 


当然 ， 从 上 面 的 示例 来 看 ， 或 许 看 不 出 来 使 用 defined 有 任何 的 优势 。 但 是 ， 在 处 理 双 重 和 多 重 判断 时 ，defined 的 优势 就 显现 出 来 了 ， 如 下 面 的 代码 所 示 : 


#ifndef CASHREGISTER XML PARSER H_ 
#ifndef “CASHREGISTER XML， TRANSFORM H 
#ifndef CASHREGISTER XML DECODE H 
/大 太太 火炎 火炎 磋 大 太 大 光阴 - - TT 
#endif 

#endif 

#endif 


从 上 面 的 代码 中 可 以 看 出 ,使 用 “#ifdef” 和 “#ifndef” 指 令 一 次 只 能 同时 检测 一 个 宏 是 否定 义 。 如 果 需 要 检测 多 个 宏 ， 则 需 将 “#ifdef” 和 “#ifndef” 指 令 重 复 复制 多 次 ， 这 样 看 起 来 很 不 友好 。 但 
是 ， 如 果 这 里 使 用 defined， 那 就 简单 多 了 ， 如 下 面 的 代码 所 示 : 


#if ! defined (_CASHREGISTER XML PARSER H ) &&! defined (_CASHREGISTER XML TRANSFORM H ) &&! defined (_CASHREGISTER XML DECODE H ) 


/区 光 六 太太 次 六 克 炎 交大 六/ 


#endif 


其 实 ，defined 的 使 用 是 非常 普及 的 ， 在 一 些 常 见 的 C 语 言 标准 库 中 也 随处 可 见 ， 下 面 的 代码 就 是 “glibc-2.17\include\features.h” 中 的 一 段 示 例 : 


#if (! defined _ STRICT ANSI  && ! defined ISOC99 SOURCE && \ 
! defined POSIX SOURCE && ! defined POSIX C SOURCE && \ 
! defined XOPEN SOURCE && ! defined BSD SOURCE && \ 
! defined _SVID SOURCE) 四 

# define _BSD SOURCE 1 

# define _SVID SOURCE 1 

#endif 


因此 ， 这 里 建议 使 用 defined。 因 为 即使 当前 代码 使 用 的 是 简单 的 条 件 编译 ， 以 后 在 维护 或 升级 时 也 可 能 会 增加 ， 这 样 也 可 以 提高 程序 的 可 维护 性 。 


建议 96: 尽量 避免 在 一 个 函数 块 中 单独 使 用 “#define” 或 “#undef 


在 C 语 言 中 ，“#undef” 指 令 与 “#define” 相 反 ， 它 用 于 取消 一 个 宏 的 定义 。 在 使 用 “#undef” 指 令 取消 一 个 宏 定义 之 后 ， 该 宏 定义 便 失 效 ， 但 可 以 重新 使 用 “#define” 进 行 定义 。 


在 实际 编程 应 用 中 ， 可 以 使 用 “#undef” 和 “#define” 来 创建 只 在 源 代码 的 某 些 部 分 被 定义 的 名 称 ， 同 时 结合 使 用 这 种 功能 和 #if、#ifdef 和 |#ifndef 编 译 指令 ， 还 可 以 更 好 地 控制 条 件 编译 。 下 面 的 代 
码 就 是 “glibc-2.17\include\features.h” 中 的 一 段 示例 : 


#ifdef _GNU SOURCE 

undef ”  _IS0C95 SOURCE 

define _ TSOC95_ SOURCE 1 
undef _ISOC99 SOURCE 

define _ISOC99 SOURCE 1 
undef _ISOC11 SOURCE 

define _ TSOC11 SOURCE 1 
undef _POSIX SOURCE 

define _POSIX SOURCE 1 

undef _POSIX C SOURCE 

define _POSIX C SOURCE 200809L 
undef _XOPEN SOURCE 

define XOPEN SOURCE 700 
undef _XOPEN SOURCE EXTENDED 

define _XOPEN SOURCE FEXTENDED 
undef _LARGEFILE64 SOURCE 
define LARGEFILE64 SOURCE 
undef _BSD SOURCE 

define _BSD SOURCE 1 
undef _SVID SOURCE 

define _SVID SOURCE 1 
undef _ATFILE SOURCE 

define _ATFILE SOURCE 

endif 


井 井 井 井 章 井 井 间 井 井 井 井 井 间 井 间 井 井 间 井 井 间 提 
记 


在 上 面 的 代码 中 ， 如 果 需 要 重 定义 宏 ， 应 该 先 用 “#undef” 解 除 前 面 的 定义 。 与 此 同时 ， 尽 量 避 免 在 一 个 函数 块 中 单独 使 用 “#define ”或 “#undef ”指令 。 


第 11 章 ”断言 与 异常 处 理 


在 程序 设计 中 ， 异 常 一 般 是 指 程序 在 运行 过 程 中 由 于 使 用 环境 的 变化 或 者 用 户 的 非 正常 操作 等 而 导致 的 非 正 常情 况 。 例 如 ， 内 存 不 足 、 打 开 文件 失败 、 数 据 溢出 、 除 零 、 打 印 机 未 打开 或 者 调制 解 调 器 
掉 线 等 原因 导致 挂 接 设备 失败 等 。 对 于 这 些 异常 情况 ， 如 果 不 能 合理 处 理 ， 将 会 使 程序 变 得 非常 脆弱 ， 甚 至 不 可 


因此 ， 对 于 这 些 可 以 预料 的 异常 情况 ， 在 进行 程序 设计 时 ， 都 应 该 提前 规划 好 处 理 办 法 ， 把 功能 模块 代码 与 系统 中 可 能 出 现 异常 的 处 理 代码 分 离开 ,编制 相应 的 预防 代码 或 者 处 理 代 码 ， 以 防止 异常 发 
生 后 造成 严重 后 果 。 这 样 ， 程 序 除了 要 保证 其 正确 性 之 外 ， 还 要 具有 一 定 的 容错 能 力 ， 即 使 在 应 用 环境 出 现 意外 或 用 户 操作 不 当时 ， 也 要 有 合理 的 处 理 结果 。 


建议 97: 谨慎 使 用 断言 


对 于 上 断言， 相信 大 家 都 不 陌生 ， 大 多 数 编程 语言 也 都 有 断言 这 一 特性 。 简 单 地 讲 ， 断 言 就 是 对 某 种 假设 条 件 进行 检查 。 在 C 语 言 中 ， 断 言 被 定义 为 宏 的 形式 (assert (expression) ) ， 而 不 是 函数 ， 其 
原型 定义 在 <assert.h> 文 件 中 。 其 中 ，assert 将 通过 检查 表达 式 expression 的 值 来 决定 是 否 需要 终止 执行 程序 。 也 就 是 说 ， 如 果 表 达 式 expression 的 值 为 假 ( 即 为 0) ， 和 那么 它 将 首先 向 标准 错误 流 stderr 打 
印 一 条 出 错 信息 ， 然 后 再 通过 调用 abort 函 数 终止 程序 运行 ; 否则 ，assert 无 任何 作用 。 


默认 情况 下 ，assert 宏 只 有 在 Debug 版 本 (内 部 调试 版 本 ) 中 才能 够 起 作用 ， 而 在 Release 版 本 (发 行 版 本 ) 中 将 被 忽略 。 当 然 ， 也 可 以 通过 定义 宏 或 设置 编译 器 参数 等 形式 来 在 任何 时 候 启用 或 者 禁 
断言 检查 (不 建议 这 么 做 ) 。 同 样 ， 在 程序 投入 运行 后 ， 最 终 用 户 在 遇 到 问题 时 也 可 以 重新 起 用 断言 。 这 样 可 以 快速 发 现 并 定位 软件 问题 ， 同 时 对 系统 错误 进行 自动 报警 。 对 于 在 系统 中 隐藏 很 深 ， 用 其 他 
手段 极 难 发 现 的 问题 也 可 以 通过 断言 进行 定位 ， 从 而 缩短 软件 问题 定位 时 间 ， 提 高 系统 的 可 测 性 。 


建议 97-1: 尽量 利用 断言 来 提高 代码 的 可 测试 性 


在 讨论 如 何 使 用 断言 之 前 ， 先 来 看 下 面 一 段 示例 代码 : 


void *Memcpy (void *dest, const void *src, size t len) 


char *tmp dest = 
char *tmp_ src = 
while (len --) 

*tmp_ dest ++ = *tmp_src ++; 
return dest; 


(char *) dest; 
(char *) src; 


对 于 上 面 的 Memcpy 函 数 ， 考 庸 置疑 ， 它 能 够 通过 编译 程序 的 检查 成 功 编译 。 从 表面 上 看 ， 该 函数 并 不 存在 其 他 任何 问题 ， 并 且 代 码 也 非常 干净 。 


但 遗憾 的 是 ， 在 调用 该 函数 时 ， 如 果 不 小 心 为 dest 与 src 参 数 错误 地 传 入 了 NULL 指 针 ， 那 么 问题 就 
布 出 去 ， 那 么 所 造成 的 后 果 是 无 法 估计 的 。 


和 了 。 轻 者 在 交付 之 前 这 个 潜在 的 错误 导致 程序 瘫痪 ， 从 而 暴露 出 来 。 否 则 ， 如 果 将 该 程序 打包 发 


由 此 可 见 ， 不 能 够 简单 地 认为 “只 要 通过 编译 程序 成 功 编译 的 就 都 是 安全 的 程序 ”。 当 然 ， 编 译 程序 也 很 难 检查 出 类 似 的 潜在 错误 (如 所 传递 的 参数 是 否 有 效 、 潜 在 的 算法 错误 等 ) 。 面 对 这 类 问题 ， 
一 般 首先 想到 的 应 该 是 使 用 最 简单 的 if 语句 进行 判断 检查 ， 如 下 面 的 示例 代码 所 示 : 


Void *Memcpy (void *dest, const void *src, size 七 len) 
if (dest = NULL) 
{ 

fprintf (stderr, "dest is NULLNn") ; 

abort () ; 


} 

if (src == NULL) 

{ 
fprintf (stderr, "src is NULL\n") ; 
abort () ; 


} 

char *tmp dest = 

char *tmp src = 

while (len --) 
*tmp_dest ++ = *tmp_src ++; 

return dest; 


(char *) dest; 
(char *) src; 


现在 , 通过 “if (dest==NULL) 与 f (src==NULL) ”判断 语句 ， 只 要 在 调 
stderr 打 印 一 条 出 错 信息 ， 然 后 再 调用 abort 函 数 终止 程序 运行 。 


从 表面 看 来 ， 上 面 的 解决 方案 应 该 堪 称 完美 。 但 是 ， 随 着 函数 参数 或 需要 检查 的 表达 式 不 断 增 多 ， 这 科 
码 看 起 来 非常 不 简洁 ， 甚 至 可 以 说 很 “糟糕 ”， 而 且 也 降低 了 函数 的 执行 效率 。 


面 对 上 面 的 问题 ， 或 许可 以 利 


C 的 预 处 理 程序 有 条 件 地 包含 或 不 包含 相应 的 检查 部 分 进行 解决 ， 如 下 面 的 代码 所 示 : 


void *MemCopy (void *dest, const void *src， 


{ 


size t len) 


#ifdef DEBUG 

if (dest == NULL) 

{ 
fprintf (stderr, "dest is NULL\n") ; 
abort () ; 


} 

if (src == NULL) 

{ 
fprintf (stderr, "src is NULLNn") ; 
abort () ; 


} 

#endif 

char *tmp dest = 

char *tmp src = 

while (len --) 
*tmp dest ++ = *tmp src ++; 

return dest; 加 


(char *) dest; 
(char *) src; 


该 函数 的 时 候 为 dest 与 src 参 数 错误 地 传 入 了 NULL 指 针 ， 这 个 函数 就 会 检查 出 来 并 做 出 相应 的 处 理 ， 即 先 向 标准 错误 流 


检查 测试 代码 将 占据 整个 函数 的 大 部 分 (这 一 点 从 上 面 的 Memcpy 函 数 中 就 不 难看 出 ) 。 这 样 代 


这 样 ， 通 过 条 件 编译 “#ifdef DEBUG” 来 同时 维护 同一 程序 的 两 个 版 本 (内 部 调试 版 本 与 发 行 版 本 ) ， 即 在 程序 编写 过 程 中 ， 编 译 其 内 部 调试 版 本 ， 利 
程序 编 完 之 后 ， 再 编译 成 发 行 版 本 。 


甘 


提供 的 测试 检查 代码 为 程序 自动 查 错 。 而 在 


上 面 的 解决 方案 尽管 通过 条 件 编译 “#ifdef DEBUG” 能 产生 很 好 的 结果 ， 
语句 很 多 时 ， 代 码 会 显得 有 些 浮肿 ， 甚 至 有 些 糟糕 。 


因此 ， 对 于 上 面 的 这 种 情况 ， 多 数 程序 员 都 会 选择 将 所 有 的 调试 代码 隐藏 在 断言 assert 宏 中 。 其 实 ，assert 宏 也 只 不 过 是 使 
中 定义 assert 宏 的 源 代码 如 下 所 示 : 


也 完全 符合 我 们 的 程序 设计 要 求 ， 但 是 仔细 观察 会 发 现 ， 这 样 的 测试 检查 代码 显得 并 不 那么 友好 ， 当 一 个 函数 里 这 种 条 件 编译 


条 件 编译 “#ifdef” 对 部 分 代码 进行 替换 ，glibc-2.17\assert\assert.h 文 件 


#ifdef NDEBUG 

# define assert (expr) ( ASSERT VOID CAST (0) ) 

# ifdef _USE GNU 和 J 

# define assert perror (errnum) (__ ASSERT VOID CAST (0) ) 
# endif 


#else /* Not NDEBUG. 
__BEGIN DECLS 
extern void _assert fail 


Wy 


(const char *_assertion, 
const char * file, 
unsigned int _ line, 
const char * function) 
THROW attribute (( noreturn ) ) ; 
/* Likewise, but prints the error text for ERRNUM. 
extern void _assert perror fail (int _ errnum, 
const char * file, 
unsigned int _ line, 
const char * function) 
THROW attribute (( noreturn ) ) ; 
/* The following is not at all used here but needed for standard 
compliance. */ 
extern void _assert 


E 


(const char * assertion, 
const char * file, int _ line) 


THROW attribute (( noreturn ) ) ; 
_END DECLS 
# define assert (expr) Y 
( (expr) % 


? _ ASSERT VOID CAST (0) \ 
_ assert fail (_ STRING (expr) ， 


: _FIIE , _LINE , _ ASSERT FUNCTION) ) 
# ifdef USE GNU 
# define assert perror (errnum) \ 

(! (errnum) 

党 ASSERT VOID CAST (0) % 

assert perror fail ( (errnum) , _FILE , _LINE , _ ASSERT FUNCTION) ) 

# endif 
# if defined _ cplusplus ? _GNUC PRERFO (2, 6) _GNUC PREREQ (2, 4) 
# define _ ASSERT FUNCTION ~_PRETTY FUNCTION 
# else 
# if defined STDC VERSION  && STDC VERSION >= 199901L 
# define ASSERT FUNCTION func 
# else 人 加 
# define _ASSERT FUNCTION ( (const char *) 0) 


# endif 
# endif 
#endif /* NDEBUG. */ 


利用 assert 宏 ， 将 会 使 代码 变 得 更 加 简洁 ， 如 下 面 的 示例 代码 所 示 : 


void *MemCopy (void *dest, const void *src, size t len) 


assert (dest! =NULL && src! =NULL) ; 
char *tmp dest = (char *) dest; 
char *tmp src = (char *) src; 
while (len --) 

*tmp dest ++ = *tmp src ++; 
return dest; 加 


现在 ， 通 过 “assert (dest! =NULL&&src! =NULL) ”语句 既 完 成 程序 的 测试 检查 功能 ( 即 只 要 在 调用 该 函数 的 时 候 为 dest 与 src 参 数 错误 传 入 NULL 指 针 时 都 会 引发 assert) ， 与 此 同时 ， 对 
MemCopy 函 数 的 代码 量 也 进行 了 大 幅度 瘦身 ， 不 得 不 说 这 是 一 个 两 全 其 美的 好 办 法 。 


通过 上 面 对 glibc-2.17\assert\assert.h 文 件 中 assert 宏 源 代码 的 展示 ， 相 信 大 家 对 宏 的 处 理 原理 已 经 有 了 基本 认识 。 实 际 上 ， 在 编程 中 我 们 经 常会 出 于 某 种 目的 (如 把 assert 宏 定义 成 当 发 生 错 误 时 不 是 
中 止 调 用 程序 的 执行 ， 而 是 在 发 生 错误 的 位 置 转 入 调试 程序 ， 又 或 者 是 允许 用 户 选择 让 程序 继续 运行 等 ) 需要 对 assert 宏 进行 重新 定义 。 


但 值得 注意 的 是 ， 不 管 断言 宏 最 终 是 用 什么 样 的 方式 进行 定义 ， 其 所 定义 宏 的 主要 目的 都 是 要 使 用 它 来 对 传递 给 相应 函数 的 参数 进行 确认 检查 。 如 果 违 背 了 这 条 宏 定义 原则 ， 那 么 所 定义 的 宏 将 会 偏离 
方向 ， 失 去 宏 定义 本 身 的 意义 。 与 此 同时 ， 为 不 影响 标准 assert 宏 的 使 用 ， 最 好 使 用 其 他 的 名 字 。 例 如 ， 下 面 的 示例 代码 就 展示 了 用 户 如 何 重 定义 自己 的 宏 ASSERT : 


/* 使 用 断言 测试 */ 
#ifdef DEBUG 
/* 处 理 函 数 原型 */ 
void Assert (char * filename, unsigned int lineno) ; 
#define ASSERT (condition) \ 
if (condition) \ 
NULL; 
else\ 
Assert (_ FIIE , _ LINE ) 
/* 不 使 用 断言 测试 */ 
#else 
#define ASSERT (condition) NULL 
#endif 
void Assert (char * filename, unsigned int lineno) 


fflush (stdout) ; 

fprintf (stderr, "\nAssert failed: %s, line %u\n", filename, lineno) ; 
fflush (stderr) ; 

abort () ; 


对 比 glibc-2.17Nassert\assert.h 文 件 中 的 assert 宏 源 代 码 ， 上 面 所 定义 的 ASSERT 宏 与 其 结构 相同 。 即 如 果 定义 了 DEBUG，ASSERT 将 被 扩展 为 一 个 if 语句 ， 否 则 执行 “#define 
ASSERT (condition) NULL” 蔡 换 成 NULL。 


这 里 需要 注意 的 是 ， 因 为 在 编写 C 语 言 代 码 时 ， 在 每 个 语句 后 面 加 一 个 分 号 “; ”已 经 成 为 一 种 约定 俗 成 的 习惯 ， 因 此 很 有 可 能 会 在 “Assert (_FILE_，_LINE_) ”调用 语句 之 后 习惯 性 地 加 上 一 个 
分 号 。 实 际 上 并 不 需要 这 个 分 号 ， 因 为 用 户 在 调用 ASSERT 宏 时 ， 已 经 给 出 了 一 个 分 号 。 面 对 这 种 问题 ， 我 们 可 以 使 用 “dofjwhile (0) ”结构 进行 处 理 ， 如 下 面 的 代码 所 示 : 


#define ASSERT (condition) \ 
dof 
if (condition) \ 
NULL; 
else\ 
Rssert (_ FILE ， LINE );\ 
}while (0) 0 


现在 ,将 不 再 为 分 号 “; ”而 担心 了 ， 调 用 示例 如 下 : 


void Test ( unsigned char *str ) 


ASSERT (str! = NULL) ; 
/* 通 数 处 理 代码 */ 

int main (void) 
Test (NULL) ; 


return 0; 


} 


很 显然 ， 因 为 调用 语句 “Test (NULL) ”为 参数 str 错 误 传 入 一 个 NULL 指 针 的 原因 ， 所 以 ASSERT 宏 会 自动 检测 到 这 个 错误 ， 同 时 根据 宏 _FILE_ 和 _LINE_ 所 提供 的 文件 名 和 行 号 参数 在 标准 错误 输出 
设备 stderr 上 打印 一 条 错误 消息 ， 然 后 调用 abort 函 数 中 止 程序 的 执行 。 运 行 结果 如 图 11-1 所 示 。 


maweialamp: 一 /程序 设计 / 
文件 (F) 编辑 (E) 查看 (V) 搜索 (S) 终端) 融 助 (H) 


[mawei@lamp cj$ gcc Test.c 


[mawei@lamp cj 车 ./a.out 


Assert failed: Test.c, line 38 
己 放 弃 (core dumped) 


图 11-1 调用 自 定义 ASSERT 宏 的 运行 结果 


如 果 这 时 候 将 自 定义 ASSERT 宏 替换 成 标准 assert 宏 结果 会 是 怎样 的 呢 ? 如 下 面 的 示例 代码 所 示 : 


void Test ( unsigned char *str ) 
assert (str! = NULL) ; 
/* 函 数 处 理 代码 */ 

} 


图 11-2 所 示 。 


组 庸 置疑 ， 标 准 assert 宏 同样 会 自动 检测 到 这 个 NULL 指 针 错 误 。 与 此 同时 ， 标 准 assert 宏 除 给 出 以 上 信息 之 外 ， 还 能 够 显示 出 已 经 失败 的 测试 条 件 。 运 行 结果 如 


maweia@ilamp:=/ 程 序 设 计 /C 


[mawei@lamp c]$ gcc Test.c 


[mawei@lamp c]$ ./a.out 
a.out: Test.c:38: Test: Assertion ‘str!= ((void *)98)' failed. 


已 放弃 (core dumped) 


图 11-2 调用 标准 assert 宏 的 运行 结果 


有 有 更 大 的 灵活 性 ， 可 以 根据 自己 的 需要 打印 输出 不 同 的 信息 ， 同 时 也 可 以 对 不 同类 型 的 错误 或 者 警告 信息 使 用 不 同 的 断言 


从 上 面 的 示例 中 不 难 发 现 ， 对 标准 的 assert 宏 来 说 ， 自 定义 的 ASSERT 宏 将 ! 
这 也 是 在 工程 代码 中 经 常 使 用 的 做 法 。 当 然 ， 如 果 没有 什么 特殊 需求 ， 还 是 建议 使 


标准 assert 宏 。 


建议 97-2: 尽量 在 函数 中 使 用 断言 来 检查 参数 的 合 ; 


要 体现 在 如 下 3 个 方面 : 


在 函数 中 使 用 断言 来 检查 参数 的 合法 性 是 断言 最 主要 的 应 用 场景 之 一 ， 它 3 


“ 在 代码 执行 之 前 或 者 在 函数 的 入 口 处 ， 使 用 断言 来 检查 参数 的 合法 性 ， 这 称 为 前 置 条 件 断 言 。 
“ 在 代码 执行 之 后 或 者 在 函数 的 出 口 处 ， 使 用 断言 来 检查 参数 是 否 被 正确 地 执行 ， 这 称 为 后 置 条 件 断言 。 


“ 在 代码 执行 前 后 或 者 在 函数 的 入 出 口 处 ， 使 用 断言 来 检查 参数 是 否 发 生 了 变化 ， 这 称 为 前 后 不 变 断 言 。 
”语句 在 函数 的 入 口 处 检查 dest 与 src 参 数 是 否 传 入 NULL 指 针 之 外 ， 还 可 以 通 


例如 ， 在 上 面 的 Memcpy 函 数 中 ， 除 了 可 以 通过 “assert (dest! =NULL&&src! =NULL) ; 
”语句 检查 两 个 内 存 块 是否 发 生 重 晋 。 如 下 面 的 示例 代码 所 示 : 


过 “assert (tmp_dest>=tmp_src+len|ltmp_src>=tmp_dest+len) ; 


void *Memcpy (void *dest, const void *src, size t len) 


{ 
assert (dest! =NULL && src! =NULL) ; 


char *tmp dest = (char *) dest; 
char *tmp src = (char *) src; 
/* 检 查 内 存 块 是 否 重 登 */ 


assert (tmp_dest>=tmp_srctlen| I|tmp_src>=tmp_dest+len) 


while (len --) 
*tmp_dest ++ = *tmp_ src ++; 


return dest; 


， 当 断言 失败 时 ， 我 们 将 很 难 直 观 地 判断 哪个 条 件 


此 之 外 ， 建 议 每 一 个 assert 宏 只 检验 一 个 条 件 ， 这 样 做 的 好 处 就 是 当 断 言 失败 时 ， 便 于 程序 排 错 。 试 想 一 下 ， 如 果 在 一 个 断言 中 同时 检验 多 个 条 件 


失败 。 因 此 ， 下 面 的 断言 代码 应 该 更 好 一 些 ， 尽 管 这 样 显得 有 些 多 此 一 举 : 


assert (dest! =NULL) ; 
assert (src! =NULL) ; 


os 和 二 


最 后 ， 建 议 assert 宏 后 面 的 语句 应 该 空 一 行 ， 以 形成 遇 辑 和 视觉 上 的 一 致 感 ， 让 代码 有 一 种 视觉 上 的 美感 。 同 时 为 复杂 的 断言 添加 必要 的 注释 ， 可 澄清 断言 含义 并 减少 不 必要 的 误 用 。 


建议 97-3: 避免 在 断言 表达 式 中 使 用 改变 环境 的 语句 


， 而 在 Release 版 本 中 将 被 忽略 。 因 此 ， 在 程序 设计 中 应 该 避免 在 断言 表达 式 中 使 用 改变 环境 的 语句 。 如 下 面 的 示例 代码 所 示 : 


默认 情况 下 ， 因 为 assert 宏 只 有 在 Debug 版 本 中 才能 起 作 


int Test (int i) 
{ 


assert (i++) ; 
return i; 

} 

int main (void) 


int i=1; 
printf ("$d\n", Test (i) ) ; 
return 0; 

} 


因为 这 里 向 变量 i 所 赋 的 初始 值 为 1， 所 以 在 执行 “assert (i++) ”语句 


对 于 上 面 的 示例 代码 ， 由 于 “assert (i++) ”语句 的 原因 ， 将 导致 不 同 的 编译 版 本 产生 不 同 的 结果 。 如 果 是 在 Debug 版 本 中 ， 
的 时 候 将 通过 条 件 检查 ， 进 而 继续 执行 “i+ +”， 最 后 输出 的 结果 值 为 2; 如 果 是 在 Release 版 本 中 ， 函 数 中 的 断言 语句 “assert (i++) ”将 被 忽略 掉 ， 这 样 表达 式 “i+ +” 将 得 不 到 执行 ， 从 而 导致 输出 的 


类 似 “i+ +” 这 样 改变 环境 的 语句 ， 使 用 如 下 代码 进行 蔡 换 : 


结果 值 还 是 1。 因 此 ， 应 该 避免 在 断言 表达 式 中 使 


int Test (int i) 
{ 
assert (i) ; 
i 


return i; 


} 


现在 ,无 论 是 Debug 版 本 ， 还 是 Release 版 本 的 输出 结果 都 将 为 2。 


建议 97-4: 避免 使 用 断言 去 检查 程序 错误 


在 对 断言 的 使 用 中 ， 一 定 要 遵循 这 样 一 条 规定 : 对 来 自 系统 内 部 的 可 靠 的 数据 使 
法 情况 ， 而 对 于 可 能 会 发 生 且 必须 处 理 的 情况 应 该 使 用 错误 处 理 代码 ， 而 不 是 断言 。 


在 通常 情况 下 ， 系 统 外 部 的 数据 (如 不 合法 的 


断言 ， 对 于 外 部 不 可 靠 数据 不 能 够 使 


断言 ， 而 应 该 使 


错误 处 理 代码 。 换 句 话 说， 断言 是 


断言 来 实现 ) 才能 放行 到 系统 内 部 ， 这 相当 于 一 个 守卫 。 而 对 于 系统 内 部 的 交互 (如 子 程序 调 


实 上 ， 在 系统 内 部 ， 传 递 给 子 程 序 预期 的 恰当 数据 应 该 是 调用 者 的 责任 ， 系 统 内 的 调 
环境 ， 降 低 复杂 度 。 


但 是 在 代码 编写 与 测试 阶段 ， 代 码 很 可 能 包含 一 些 意 想 不 到 的 缺 
就 可 以 发 挥 作 用 ， 用 来 确诊 到 底 是 哪 部 分 出 现 了 问题 而 导致 子 程序 调 
来 检查 最 终 产品 肯定 会 出 现 且 必须 处 理 的 错误 情况 。 


看 下 面 一 段 示例 代码 : 


多 ， 也 许 是 处 理 外 部 数据 的 程序 考虑 得 不 够 周全 ， 也 许 是 调 
失败 。 在 清理 所 有 缺陷 之 后 ， 就 建立 了 内 外 有 别 的 信 


会 让 代码 变 得 腔 肿 复杂 。 
以 正常 工作 的 。 这 样 一 来 ， 就 隔离 了 不 可 靠 的 外 部 环境 和 可 靠 的 系统 内 部 


来 处 理 不 应 该 发 生 的 非 


户 输入 ) 都 是 不 可 靠 的 ， 需 要 做 严格 的 检查 (如 某 模块 在 收 到 其 他 模块 或 链 路 上 的 消息 后 ， 要 对 消息 的 合理 性 进行 检查 ， 此 过 程 为 正常 的 错误 检查 ， 不 
) ， 如 果 每 次 都 去 处 理 输入 的 数据 ， 也 就 相当 于 系统 没有 可 信 的 边界 ， 这 
者 应 该 确保 传递 给 子 程序 的 数据 是 恰当 且 可 | 


TT 
| 


系统 内 部 子 程序 的 代码 存在 错误 ， 造 成 子 程序 调 


失败 。 这 个 时 候 ， 断 言 


体系 。 等 到 发 行 版 的 时 候 ， 这 些 断 言 就 没有 存在 的 必 


了 。 因 此 ， 不 能 用 断言 


char * Strdup (const char * source) 
{ 
assert (source ! = NULL) ; 
char * result=NULL,; 
size t len = strlen (source) +1; 
result = (char *) malloc (len) ; 
assert (result ! = NULL) ; 
strcpy (result, source) ; 
return result; 


对 于 上 面 的 Strdup 函 数 ， 相 信 大 家 都 不 陌生 。 其 中 ， 第 一 个 断言 语句 “assert (source! =NULL)“ 
给 source 参 数 的 值 必然 不 为 NULL， 如 果断 言 失败 ， 说 明 调用 代码 中 有 错误 ， 必 须 修改 。 


来 检查 该 程序 正常 工作 时 绝对 不 应 该 发 生 的 非法 情况 。 换 名 话说， 在 调 


代码 正确 的 情况 下 传递 


而 第 二 个 断言 语句 “assert (result! =NULL) ”的 


因此 ， 它 属于 断言 的 正常 使 


法 则 不 同 ， 它 测试 的 是 错误 情况 ， 是 在 其 最 终 产品 中 肯定 


配 失败 时 就 会 返回 NULL， 


因此 这 里 不 应 该 使 


assert 宏 进行 处 理 ， 而 应 该 使 用 错误 处 理 代码 。 如 下 面 问题 将 使 用 讲 | 


情况 。 


会 出 现 且 必须 对 其 进行 处 理 的 错误 情况 。 即 对 malloc 函 数 而 言 ， 当 内 存 不 足 导 致 内 存 分 
断 语句 进行 处 理 : 


char * Strdup (const char * source) 
{ 
assert (source ! = NULL) ; 
char * result=NULL; 
size t len = strlen (source) +1; 
result = (char *) malloc (len) ; 
if (result ! = NULL) 
{ 
strcpy (result, source); 
} 
return result; 


} 


总 之 记 住 一 句 话 : 断言 是 


来 检查 非法 情况 的 ， 而 不 是 测试 和 处 理 错误 的 。 


因此 ， 不 要 混淆 非法 情况 与 错误 情况 之 间 的 区 别 ， 后 者 是 必然 存在 且 一 定 要 处 理 的 。 


建议 97-5: 尽量 在 防 错 性 程序 设计 中 使 用 断言 来 进行 错误 报警 


对 于 防 错 性 程序 设计 ， 相 信 有 经 验 的 程序 员 并 不 陌生 ， 大 多 数 教 科 书 也 都 鼓励 程序 员 进 行 防 错 性 程序 设计 。 在 程序 设计 过 程 中 ， 总 会 或 多 或 少 产生 一 些 错 误 ， 这 些 错误 有 些 属于 设计 阶段 隐藏 下 来 的 ， 
有 些 则 是 在 编码 中 产生 的 。 为 了 避免 和 纠正 这 些 错误 ， 可 在 编码 过 程 中 有 意识 地 在 程序 中 加 进 一 些 错误 检查 的 措施 ， 这 就 是 防 错 性 程序 设计 的 基本 思想 。 其 中 ， 它 又 可 以 分 为 主动 式 防 错 程序 设计 和 被 动 式 


防 错 程序 设计 两 种 。 


主动 式 防 错 程序 设计 是 指 周期 性 地 对 整个 程序 或 数据 库 进 行 搜查 或 在 空闲 时 搜查 异常 情况 。 它 既 可 以 在 处 理 输 入 信息 期 间 使 


， 也 可 以 在 系统 空闲 时 间或 等 待 下 一 个 输入 时 使 


均 适 合 主动 式 防 错 程序 设计 。 


“内存 检查 : 如 果 在 内 存 的 某 些 块 中 存放 了 一 些 具有 某 种 类 型 和 范围 的 数据 ， 则 可 对 它们 做 经 常 性 检查 。 


. 标志 检查 : 如 果 系统 的 状态 是 由 某 些 标志 指示 的 ， 可 对 这 些 标志 做 单独 检查 。 
. 反 向 检查 : 对 于 一 些 从 一 种 代码 翻译 成 另 一 种 代码 或 从 一 种 系统 翻译 成 另 一 种 系统 的 数据 或 变量 值 ， 可 以 采用 反 向 检查 ， 即 利用 反 向 翻译 来 检查 原始 值 的 翻译 是 否 正确 。 
. 状态 检查 : 对 于 某 些 具有 多 个 操作 状态 的 复杂 系统 ， 若 用 某 些 特定 的 存储 值 来 表示 这 些 状态 ， 则 可 通过 单独 检查 存储 值 来 验证 系统 的 操作 状态 。 
. 连接 检查 : 当 使 用 链表 结构 时 ， 可 检查 链表 的 连接 情况 。 
. 时 间 检 查 : 如 果 已 知道 完成 菜 项 计算 所 需 的 最 长 时 间 ， 则 可 用 定时 器 来 监视 这 个 时 间 。 

. 其 他 检查 : 程序 设计 人 员 可 经 常 仔细 地 对 所 使 用 的 数据 结构 、 操 作 序列 和 定时 以 及 程序 的 功能 加 以 考虑 ， 从 中 得 到 要 进行 哪些 检查 的 启发 。 
被 动 式 防 错 程 序 设计 则 是 指 必须 等 到 某 个 输入 之 后 才能 进行 检查 ， 也 就 是 达到 检查 点 时 才能 对 程序 的 某 些 部 分 进行 检查 。 一 般 所 要 进行 的 检查 项 目 如 下 : 
. 来 自 外 部 设备 的 输入 数据 ， 包 括 范围 、 属 性 是 否 正确 。 

. 由 其 他 程序 所 提供 的 数据 是 否 正确 。 


“ 数据 库 中 的 数据 ， 包 括 数组 、 文 件 、 结 构 、 记 录 是 否 正确 。 


。 如 下 面 所 列 出 的 检查 


“ 操作 员 的 输入 ， 包 括 输入 的 性 质 、 顺 序 是 否 正确 。 


“ 栈 的 深度 是 否 正确 。 


“ 数组 界限 是 否 正确 。 


“ 表达 式 中 是 否 出 现 零 分 母 情况 。 


“正在 运行 的 程序 版 本 是 否 是 所 期 望 的 (包括 最 后 系统 重新 组 合 的 日 期 ) 。 


“ 通过 其 他 程序 或 外 部 设备 的 输出 数据 是 否 正确 。 


虽然 防 错 性 程序 设计 被 誉 为 有 较 好 的 编码 风格 ,一 直 被 业界 强烈 推荐 。 但 防 错 性 程序 设计 也 是 一 把 双 刃 剑 ， 从 调试 错误 的 角度 来 看 ， 它 把 原来 简单 的 、 显 而 易 见 的 缺陷 转变 成 星 深 的、 难以 检测 的 缺 


陷 ， 而 且 诊 断 起 来 非常 困难 。 从 某 种 意义 上 讲 ， 防 错 性 程序 设计 隐瞒 了 程序 的 潜在 错误 。 


当然 ， 对 于 软件 产品 ， 希 望 它 越 健 壮 越 好 。 但 是 调试 脆弱 的 程序 更 容易 帮助 我 们 发 现 其 问题 ， 因 为 当 缺 陷 出 现 的 时 候 它 就 会 立即 表现 出 来 。 因 此 ， 在 进行 防 错 性 程序 设计 时 ， 如 果 “ 不 可 能 发 生 ” 的 寻 


| 


情 的 确 发 生 了 ， 则 需要 使 用 断言 进行 报警 ， 这 样 ， 才 便于 程序 员 在 内 部 调试 阶段 及 时 对 程序 问题 进行 处 理 ， 从 而 保证 发 布 的 软件 产品 具有 良好 的 健壮 性 。 


一 个 很 常见 的 例子 就 是 无 处 不 在 的 for 循 环 ， 如 下 面 的 示例 代码 所 示 


for (i=0; i<count; i++) 


/* 处 理 代码 */ 


在 几乎 所 有 的 for 循 环 示 例 中 ， 其 行为 都 是 迭代 从 0 开始 到 “count-1” 


有 可 能 意味 着 代码 中 存在 着 潜在 的 缺陷 问题 。 


此 ， 大 家 也 都 自然 而 然 地 编写 成 了 上 面 这 种 防 错 性 版 本 。 但 存在 的 问题 是 : 如 果 for 循 环 中 的 索引 i 值 确实 大 于 count， 那 么 极 


由 于 上 面 的 for 循 环 示例 采用 了 防 错 性 程序 设计 方式 ， 因 此 ， 就 算是 在 内 部 测试 阶段 中 出 现 了 这 种 缺陷 也 很 难 发 现 其 问题 的 所 在 ， 更 加 不 可 能 出 现 系 统 报警 提示 。 同 时 ， 因 为 这 个 潜在 的 程序 缺陷 ， 极 有 


可 能 会 在 以 后 让 我 们 吃 尽 苦头 ， 而 且 非 常 难以 诊断 。 


那么 ， 不 采用 防 错 性 程序 设计 会 是 什么 样子 呢 ? 如 下 面 的 示例 代码 所 示 : 


for (i=0; i! =count; i++) 


/* 处 理 代码 */ 


很 显然 ， 这 种 写法 肯定 是 不 行 的 ， 当 for 循 环 中 的 索引 i 值 确实 大 于 count 时 ， 它 还 是 不 会 停止 循环 。 


对 于 上 面 的 问题 ， 断 言 为 我 们 提供 了 一 个 非常 简单 的 解决 方法 ， 如 下 面 的 示例 代码 所 示 : 


for (i=0; i<count; i++) 


/* 处 理 代码 */ 
} 


assert (i==count) ; 


不 难 发 现 ， 通 过 断言 真正 实现 了 一 举 两 得 的 目的 : 健壮 的 产品 软件 和 脆弱 的 开发 调试 程序 ， 即 在 该 程序 的 交付 版 本 中 ， 相 应 的 程序 防 错 代 码 可 以 保证 当 程 序 的 缺陷 问题 出 现 的 时 候 , 可 以 不 受 损 


站 


;而 在 该 程序 的 内 部 调试 版 本 中 ， 洪 在 的 错误 仍然 可 以 通过 断言 预警 报告 。 


因此 ，“ 无 论 你 在 哪里 编写 防 错 性 代码 ， 都 应 该 尽量 确保 使 用 断言 来 保护 这 段 代码 ”。 当 然 ， 也 不 必 过 分 拘泥 于 此 。 例 如 ， 如 果 每 次 执行 for 循 环 时 索引 i 的 值 只 是 简单 地 增 1， 那 么 要 使 索引 i 的 值 超过 


count 从 而 引起 问题 几乎 是 不 可 能 的 。 在 这 种 情况 下 ， 相 应 的 断言 也 就 没有 任何 存在 的 意义 ， 应 该 从 程序 中 删除 。 但 是 ， 如 果 索 引 i 的 值 有 其 他 处 理 情况 ， 则 必须 使 用 断言 进行 预警 。 由 此 可 见 ， 在 防 错 性 程 


序 设 计 中 是 否 需要 使 用 断言 进行 错误 报警 要 视 具体 情况 而 定 ， 
对 这 些 错误 进行 报警 。 否则， 就 不 要 多 此 一 举 了 。 


在 编码 之 前 都 要 问 自 己 : “在 进行 防 错 性 程序 设计 时 ， 程 序 中 隐瞒 错误 了 吗 ? ”如 果 答案 是 肯定 的 ， 就 必须 在 程序 中 加 上 相应 的 断言 ， 以 此 来 


建议 97-6: 用 断言 保证 没有 定义 的 特性 或 功能 不 被 使 用 


在 日 常 软件 设计 中 ， 如 果 原 先 规定 的 一 部 分 功能 尚未 实现 ， 则 应 该 使 用 断言 来 保证 这 些 没有 被 定义 的 特性 或 功能 不 被 使 用 。 例 如 ， 某 通信 模块 在 设计 时 ， 准 备 提供 “无 连接 ”和 “连接 ”这 两 种 业务 。 
但 当前 的 版 本 中 仅 实现 了 “无 连接 ”业务 ， 且 在 此 版 本 的 正式 发 行 版 中 ， 用 户 (上 层 模块 ) 不 应 产生 “连接 ”业务 的 请 求 ， 那 么 在 测试 时 可 用 断言 来 检查 用 户 是 否 使 用 了 “连接 ”业务 。 如 下 面 的 示例 代码 


所 示 : 


/* 无 连接 业务 */ 

#define CONNECTIONLESS 0 

/* 连 接 业 务 */ 

#define CONNECTION 1 

int MessageProcess (MESSAGE *msg) 

{ 
assert (msg ! = NULL) ; 
unsigned char service; 
service = GetMessageService (msg) ; 
/* 使 用 断言 来 检查 用 户 是 否 使 用 了 “连接 ”业务 */ 
assert (service ! = CONNECTION) ; 
/* 处 理 代码 */ 


建议 97-7: 谨慎 使 用 断言 对 程序 开发 环境 中 的 假设 进行 检查 


在 程序 设计 中 ， 不 能 够 使 用 断言 来 检查 程序 运行 时 所 需 的 
置 的 某 版 本 软 硬 件 是 否 具有 某 种 功能 的 假设 进行 检查 。 例 如 ， 


软 硬 件 环境 及 配置 要 求 ， 它 们 需要 由 专门 的 处 理 代码 进行 检查 处 理 。 而 断言 仅 可 对 程序 开发 环境 (OS/Compiler/Hardware) 中 的 假设 及 所 配 
某 网 卡 是 否 在 系统 运行 环境 中 配置 了 ， 应 由 程序 中 正式 代码 来 检查 ; 而 此 网 卡 是 否 具有 某 设想 的 功能 ， 则 可 以 由 断言 来 检查 。 


除 此 之 外 ， 对 编译 器 提供 的 功能 及 特性 的 假设 也 可 以 使 


断言 进行 检查 ， 如 下 面 的 示例 代码 所 示 : 


/*int 类 型 占用 的 i 为 2*/ 
4 


本 是 否 为 4*/ 


assert (sizeof (long) ==4) ; 
/*byte 的 宽度 是 否 为 8*/ 
assert (CHAR BIT==8) ; 


之 所 以 可 以 这 样 使 用 断言 ， 那 是 因为 软件 最 终 发 行 的 Release 版 本 与 编译 器 已 没有 任何 直接 关系 。 


最 后 ， 必 须 保证 软件 的 Debug 与 Release 两 个 版 本 在 实现 功能 上 的 一 致 性 ， 同 时 可 以 使 用 调 测 开关 来 切换 这 两 个 不 同 的 版 本 ， 以 便 统 一 维护 ， 切 记 不 要 同时 存在 Debug 版 本 与 Release 版 本 两 个 不 同 的 源 


文件 。 


建议 98: 


在 C 语 言 中 ， 对 于 存放 错误 码 的 全 局 
一 个 名 为 errno 的 全 局 


程序 的 一 个 恒 


谨慎 使 用 errno 


要 方法 。 


assert 会 极 大 影响 程序 的 性 能 ， 


增加 额外 的 开销 。 因 


变量 errno， 相 信 大 家 都 不 陌生 。 为 防止 和 正常 的 返回 
变量 中 ，errno 不 同 数值 所 代表 的 错误 消息 定义 在 errno.h 文 件 中 。 如 果 一 个 系统 调 


此 ， 应 该 在 正式 软件 产品 ( 即 Release 版 本 ) 中 将 断言 及 : 


其 他 调 测 代码 关 掉 (尤其 是 针对 自 定义 的 断言 宏 ) 。 


值 混淆 ， 系 统 调 用 一 般 并 不 直接 返回 错误 码 ， 而 是 将 错误 码 (是 一 个 整数 值 ， 不 同 的 值 代 表 不 


同 的 含义 ) 存 入 


或 库 函 数 调用 失败 ， 


合 perror 和 strerror 函 数 ， 还 可 以 很 方便 地 查看 出 错 的 详细 信息 。 其 中 ，perror 在 stdio.h 中 定义 ， 


最 后 需要 特别 强调 的 是 ， 并 不 是 所 有 的 库 函 数 都 适合 


errno 全 局 变量 。 就 errno 而 言 ， 


(1) 设置 errno 并 返回 一 个 带 内 “In-Band” 错误 指示 符 的 库 函 数 


如 表 11- 


ULONG_MAX 也 是 一 个 合法 的 返回 值 ， 因 此 必须 使 用 errno 来 检查 是 否 


1 所 示 ， 这 些 函数 将 设置 errno， 并 返回 一 个 带 内 “In-Band” 错 误 指示 符 。 例 如 ， 


库 函 数 一 般 分 为 如 下 几 种 类 型 。 


函数 strtoul 发 生 错误 时 将 返回 ULONG_MAX， 并 将 errno 的 值 设 置 为 ERANGE。 


表 11-1 设置 errno 并 返回 一 个 带 内 “In-Band” 错 误 指 


发 生 错 误 。 与 此 同时 ， 对 于 这 类 函数 ， 必 须 在 调 


可 以 通过 读 出 errno 的 值 来 确定 问题 所 在 ， 推 测 程序 出 错 的 原因 


这 些 库 函 数 之 前 将 errno 的 值 设置 为 0， 然 后 在 调 | 


符 的 库 函 数 


这 里 就 需要 注意 了 ， 由 于 
库 函 数 之 后 检查 errno 的 值 。 


， 这 也 是 调试 


于 打印 错误 码 及 其 消息 描述 ; 而 strerror 在 string.h 中 定义 ， 用 于 获取 错误 码 对 应 的 消息 描述 。 


fgetwc、 fputwe 


strtol 、wcstol 


返回 值 errno 值 
WEOF EILSEQ 


LONG _ MIN 或 LONG MAX ERANGE 


strtoll 、wcestoll 


strtoul 、wcstoul 


LLONG_MIN 或 LLONG_MAX ERANGE 


ULONG _ MAX ERANGE 


如 表 11 


strtoull 、wcestoull ULLONG MAX ERANGE 
strtoumax 、wcecstoumax UINIMAX MAX ERANGE 
strtod 、wcstod 0 或 上 HUGE VAL ERANGE 
strtof 、Wcstof 0 或 上 HUGE VALF ERANGE 


strtold 、wcstold 


strtoimax 、Wcstolimax 


0 或 + HUGE VALL ERANGE 
INIMAX MIN, INIMAX MAX ERANGE 


(2) 设置 errno 并 返回 一 个 带 外 “Out-of-Band” 错 误 指 示 符 的 库 函 数 


-2 所 示 ， 对 于 这 类 函数 ， 应 该 先 检查 它 的 返回 值 ， 之 后 如 果 确 实 需要 再 继续 检查 errno 的 值 。 


表 11-2 设置 ermo 并 返回 一 个 带 外 “Out-of Band” 错 误 指 示 符 的 库 函 数 


函 数 返回 值 errno 值 
ftell0 -1L positive 
fgetposO 、fsetpos() nonzero positive 
mbrtowc()、mbsrtowcs() (size_t)(-1) EILSEQ 
signal() 上 SIG ERR positive 
wertomb()、wcsrtombs() (size_t)(-1) EILSEQ 
mbrtoc16() 、mbrtoc32() (size_t)(-1) EILSEQ 
cl6rtomb()、cr32rtomb() (size_t)(-1) EILSEQ 

(3) 不 保证 设置 errno 的 库 函 数 


例如 ，setlocale 函 数 在 发 送 错误 时 将 返回 NULL， 但 却 不 能 保证 一 定 会 设置 errno 的 值 。 


errno 的 值 ， 就 算是 这 样 也 不 能 够 保证 errno 会 正确 地 提示 错误 的 信息 。 


(4) 具 


有 不 同 标准 文档 的 库 函 数 


这 类 函数 时 ， 不 应 完全 依赖 于 errno 的 值 来 确定 是 否 发 生 了 错误 。 与 此 同时 ， 该 浮 数 可 能 会 设 


有 些 函 数 在 不 同 的 标准 中 对 errno 有 不 同 的 定义 。 例 如 ，fopen 函 数 就 是 一 个 典型 的 例子 。 在 C99 中 ， 并 没有 在 描述 fopen 时 提 到 errno， 但 是 ，POSIX.1 却 声明 了 当 fopen 遇 到 一 个 错误 时 将 返回 
NULL， 并 且 为 errno 设 置 一 个 值 以 提示 这 个 错误 。 


建议 98-1: 调用 errno 之 前 必须 先 将 其 清 零 


在 C 语 言 中 ， 如 果 系统 调用 或 库 函 数 被 正确 地 执行 ， 那 么 errno 的 值 不 会 被 清 零 。 换 句 话 说 ，errno 的 值 只 有 在 一 个 库 函 数 调用 发 生 错误 时 才 会 被 设置 ， 当 库 函 数 调用 成 功 运行 时 ，errno 的 值 不 会 被 修 
改 ， 当 然 也 不 会 主动 被 置 为 0。 也 正 因为 如 此 ， 在 实际 编程 中 进行 错误 诊断 会 有 不 少 问题 。 例 如 ， 在 一 段 示 例 代码 中 ， 首 先 执行 钞 数 A 的 调用 ， 如 果 函 数 A 在 执行 中 发 生 了 错误 ， 那 么 errno 的 值 将 被 修改 。 接 
下 来 ， 在 不 对 errno 的 值 做 任何 处 理 的 情况 下 ， 继 续 直 接 执 行 久 数 B 的 调用 ， 如 果 溯 数 B 被 正确 地 执行 ， 那 么 errno 将 还 保留 着 函数 A 发 生 错 误 时 被 设置 的 值 。 也 正 是 这 个 原因 ， 我 们 不 能 通过 测试 errno 的 值 来 
判断 是 否 存 在 错误 。 


由 此 可 见 ， 在 调用 errno 之 前 ， 应 该 首先 对 函数 的 返回 值 进行 判断 ， 通 过 对 返回 值 的 判断 来 检查 函数 的 执行 是 否 发 生 了 错误 。 如 果 通 过 检查 返回 值 确认 函数 调用 发 生 了 错误 ， 那 么 再 继续 利用 errno 的 值 
来 确认 究竟 是 什么 原因 导致 了 错误 。 但 是 ， 如 果 一 个 函数 调用 无 法 从 其 返回 值 上 判断 是 否 发 生 了 错误 时 ， 那 么 将 只 能 通过 errno 的 值 来 判断 是 否 出 错 以 及 出 错 的 原因 。 对 于 这 种 情况 ， 必 须 在 调用 函数 之 前 先 
将 errno 的 值 手动 清 零 ， 否 则 ，errno 的 值 将 有 可 能 够 发 生 上 面 示例 所 展示 的 情况 。 


例如 ， 当 调用 fopen 函 数 发 生 错误 时 ， 它 将 会 去 修改 errno 的 值 ， 这 样 外 部 的 代码 就 可 以 通过 判断 errno 的 值 来 区 分 fopen 内 部 执行 时 是 否 发 生 错误 ， 并 且 根据 errno 值 的 不 同 来 确定 具体 的 错误 类 型 。 如 
下 面 的 示例 代码 所 示 : 


int main (void) 
{ 
/* 调 用 errno 之 前 必须 先 将 其 清 零 */ 
errno=0; 
FILE *fp = fopen ("test.txt", "r") ; 
if (errno! =0) 
{ 
Printf ("errno 值 ; %d\n", errno) ; 
printf ("错误 信息 : %s\n",，strerror (errno) ) ; 
} 


在 这 里 ,假设 “test.txt” 是 一 个 根本 不 存在 的 文件 。 因 此 ， 在 调用 fopen 函 数 尝 试 打 开 一 个 并 不 存在 的 文件 时 将 发 生 错误 ， 同 时 修改 errno 的 值 。 这 时 ，fopen 函 数 会 将 errno 指 向 的 值 修改 为 2。 我 们 通 
过 stderror 函 数 可 以 看 到 错误 代码 “2” 的 意思 是 “No such file or directory”， 如 图 11-3 所 示 。 


EW GE He ds 


文件 (FE) 编辑 (E) 查看 (V) 搜索 (S) ”终端 (T) 帮助 (H) 


EE TE Ns Ee 本 蕊 aa 


[mawei@lamp cj]$ gcc Test.c 


[mawei@lamp cj]$ ./a.out 
errno 值 : 
错误 信息 ; No such file or directory 


图 11-3 ”示例 代码 的 运行 结果 


从 上 面 的 示例 可 以 看 出 ， 使 用 errno 来 报告 错误 看 起 来 似乎 非常 简单 完美 ， 但 其 实情 况 并 非 如 此 。 前 面 也 阐述 过 ， 在 C99 中 ， 并 没有 在 描述 fopen 时 提 到 errno。 但 是 ，POSIX.1 却 声明 了 当 fopen 遇 到 一 
个 错误 时 ， 它 将 返回 NULL， 并 且 为 errno 设 置 一 个 值 以 提示 这 个 错误 ， 这 就 暗示 一 个 遵循 了 C99 但 不 遵循 POSIX 的 程序 不 应 该 在 调用 fopen 之 后 再 继续 检查 errno 的 值 。 因 此 ， 下 面 的 写法 完全 合乎 要 求 : 


int main (void) 
FILE *fp = fopen ("test,txt", "r") ; 

if (fp==NULL) 

/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...*/ 
i k 


但 是 ， 上 面 也 说 过 ， 在 POSIX 标 准 中 ， 当 fopen 遇 到 一 个 错误 的 时 候 将 返回 NULL， 并 且 为 errno 设 置 一 个 值 以 提示 这 个 错误 。 因 此 ， 在 遵循 POSIX 标 准 中 ， 应 该 首先 检查 fopen 是 否 返 回 NULL 值 ， 如 果 
反 回 ， 再 继续 检查 errno 的 值 以 确认 产生 错误 的 具体 信息 ， 如 下 面 的 代码 所 示 : 


int main (void) 


{ 
/* 调 用 errno 之 前 必须 先 将 其 清 零 */ 
errno=0; 
FILE *fp = fopen ("test.txt", "r") ; 
if (fp==NULL) 
{ 


if (errno! =0) 


Printf ("errno 值 ; %d\n", errno) ; 
printf ("错误 信息 : %s\n",，strerror (errno) ) ; 


其 实 ， 即 使 系统 调用 或 者 库 函 数 正 确 执行 ， 也 不 能 够 保证 errno 的 值 不 会 被 改变 。 因 此 ， 在 没有 发 生 错误 的 情况 下 ，fopen 也 有 可 能 修改 的 errno 值 。 先 检查 fopen 的 返回 值 ， 再 检查 errno 的 值 才 是 正确 
的 做 法 。 


除 此 之 外 ， 建 议 在 使 用 errno 的 值 之 前 ， 必 须 先 将 其 值 赋 给 另外 一 个 变量 保存 起 来 ， 因 为 很 多 函数 (如 fprintf) 自身 就 可 能 会 改变 errno 的 值 。 


建议 98-2: 避免 重 定义 errno 


对 于 errno， 它 是 一 个 由 ISO 与 POSIX 标 准 定义 的 符号 。 早 些 时 候 ，POSIX 标 准 曾经 将 errno 定 义 成 “extern int errno” 这 种 形式 ， 但 现在 这 种 定义 方式 比较 少见 了 ， 那 是 因为 这 种 形式 定义 的 errno 
对 多 线程 来 说 是 致命 的 。 在 多 线程 环境 下 ，errno 变 量 是 被 多 个 线程 共享 的 ， 这 样 就 可 能 引发 如 下 情况 : 线程 A 发 生 某 些 错误 而 改变 了 errno 的 值 ， 那 么 线程 B 虽 然 没 有 发 生 任何 错误 ， 但 是 当 它 检测 errno 的 
值 时 ， 线 程 B 同 样 会 以 为 自己 发 生 了 错误 。 


我 们 知道 ， 在 多 线程 环境 中 ， 多 个 线程 共享 进程 地 址 空间 ， 因 此 就 要 求 每 个 线程 都 必须 有 属于 自己 的 局 部 errno， 以 避免 一 个 线程 干扰 另 一 个 线程 。 其 实 ， 现 在 的 大 多 部 分 编译 器 都 是 通过 将 errno 设 置 
为 线程 局 部 变量 的 实现 形式 来 保证 线程 之 间 的 错误 原因 不 会 互相 串 改 。 例 如 ， 在 Linux 下 的 GCC 编译 器 中 ， 标 准 的 errno 在 “/usVinclude/errno.h” 中 的 定义 如 下 : 


/* Get the error number constants from the system-specific file. 
This file will test _need Fmath and ERRNO H. * 

#include <bits/errno.h> 

#undef __need Emath 

#ifdef ERRNO H 

/* Declare the ‘errno' variable, unless it's defined as a macro by 
bits/errno.h. This is the case in GNU, where it is a per-thread 
variable. This redeclaration using the macro still works, but it 
will be a function declaration without a prototype and may trigger 
a -Wstrict-prototypes warning. */ 


#ifndef errno 
extern int errno; 
#endif 


其 中 ，errno 在 “/usr/include/bits/errno.h” 文 件 中 的 具体 实现 如 下 : 


# ifndef ASSEMBLER 

/* Function to get address of global ‘errno' variable. */ 

extern int * errno location (void) THROW attribute Cu womst }}'s 
# if ! defined LIBC || defined LIBC REENTRANT 

/* When using threads, errno is a per-thread value. */ 

# define errno (* errno location () ) 

# endif 加 

# endif /* ! ASSEMBLER _ */ 

dendif /* ERRNOH*/ ~ 


这 样 ， 通 过 “extern int*_errno location (void) _THROW_attribute _ ( (_const ) ) ;“ 与 “#define errno (*_errno location () ) ”定义 ， 使 每 个 线程 都 有 自己 的 errno， 不 管 哪个 线 
程 修改 errno 都 是 修改 自己 的 局 部 变量 ， 从 而 达到 线程 安全 的 目的 。 


除 此 之 外 ， 如 果 要 在 多 线程 环境 下 正确 使 用 errno， 首 先 需要 确保 _ASSEMBLER_ 没 有 被 定义 ， 同 时 _LIBC 没 被 定义 或 定义 了 _LIBC_REENTRANT。 可 以 通过 下 面 的 程序 来 在 自己 的 开发 环境 中 测试 这 几 
个 宏 的 设置 : 


int main ( void ) 


{ 
#ifndef _ ASSEMBLER 

printf ( " ASSEMBLER is not defined!l \n" ) ; 
#else 


printf ( " ASSEMBLER is defined! \n" ); 
#endif 
#ifndef LIBC 

printf ( "_LIBC is not defined\n" ) ; 
#else 

printf ( " LIBC is defined! \n" ) ; 
#endif 和 
#ifndef LIBC REENTRANT 

printf ( ™ LIBC REENTRANT is not defined\n" ) ; 
#else 

printf ( "_LIBC REENTRANT is defined! \n" ) ; 
#endif 

return 0; 


} 


mawei@lamp:~/ 程 序 进 计 /c 
文件 (EF) 编辑 (E) 查看 (V) 搜索 3) 终端) 帮助 (H) 


[mawei@lamp cj$ gcc Test.c 
[mawei@lamp c]$ ./a.out 
ASSEMBLER is not defined! 
_LIBC 1is not defined 

_LIBC REENTRANT is not defined 


国 CWindows\system32\cmd,exe 


is not def ined' 


LIBGC_REENIRANT is not defined 


图 11-4 ”示例 代码 的 运行 结果 


由 此 可 见 ， 在 使 用 errno 时 ， 只 需要 在 程序 中 简单 地 包含 它 的 头 文件 “errno.h” 即 可 ， 千 万 不 要 多 此 一 举 ， 在 程序 中 重新 定义 它 。 如 果 在 程序 中 定义 了 一 个 名 为 errno 的 标识 符 ， 其 行为 是 未 定义 的 。 


建议 98-3: 避免 使 用 errno 检 查 文 件 流 错误 


上 面 已 经 阐述 过 ， 在 POSIX 标 准 中 ， 可 以 通过 errno 值 来 检查 fopen 函 数 调用 是 否 发 生 了 错误 。 但 是 ， 对 特定 文件 流 操作 是 否 出 错 的 检查 则 必须 使 用 ferror 函 数 ， 而 不 能 够 使 
查 。 如 下 面 的 示例 代码 所 示 : 


int main ( void ) 
{ 
FILE* fp=NULL; 
/* 调 用 errno 之 前 必须 先 将 其 清 零 */ 


errno=0; 


fp = fopen ("Test.txt", "w") ; 
if (fp 一 NULL) 
{ 
if (errno! =0) 
{ 
/* 处 理 错 误 */ 
} 


/* 错 误 地 从 fp 所 指定 的 文件 中 读 取 一 个 字符 */ 
fgetc (fp) ; 
/* 判 断 是 否 读 取出 错 */ 
if (ferror (fp) ) 
{ 
/* 处 理 错 误 */ 


clearerr (fp) ; 


fclose (fp) ; 
return 0; 


errno 进 行文 件 流 错误 检 


建议 99: 说 什 使 用 函数 的 返回 值 来 标志 函数 是 否 执行 成 功 


在 C 语 言 中 ， 使 用 函数 的 返回 值 来 标志 函数 是 否 执行 成 功 〈 例 如 ， 函 数 执行 成 功 则 返回 1， 失 败 则 返 


回 0) 的 错误 处 理 方式 ， 相 信 大 家 都 不 陌生 。 该 方式 是 


前 最 为 最 普遍 ， 使 


也 是 在 过 程 


最 多 , 并 


化 程序 设计 中 最 为 经 典 的 错误 处 理 方式 ， 大 多 标准 库 函 数 也 都 采 


了 返回 值 的 方式 。 这 种 错误 处 理 方式 的 


好 处 就 是 简单 方便 ， 而 且 不 影响 效率 ， 保 持 了 (语言 的 


高 效率 。 但 这 种 错误 处 理 方式 仍然 存在 着 如 


下 一 些 问题 。 


首先 ， 在 设计 一 个 接 [ 


时 ， 不 应 该 要 求 客户 程序 承担 过 多 的 工作 ， 一 个 接口 应 该 尽量 简单 。 如 果 使 


到 调 


者 的 身上 ， 使 调 


注 处 理 程序 的 逻辑 。 


者 不 能 


其 次 , 使 
的 。 


这 种 错误 处 理 方式 并 不 会 强制 调 


者 必须 处 理 返回 值 错 误 。 


因此 ， 如 果 函 数 的 调 


的 是 函数 返回 值 这 种 错误 处 理 方式 ， 当 调 
查 它 的 返回 值 。 同 时 需要 不 断 提 醒 自 己 这 个 函数 会 返回 什么 错误 ?错误 具体 是 什么 ”然后 开始 翻 查 函 数 说 明 手 册 ， 接 着 对 每 个 错误 的 返回 都 要 给 出 


者 调 


该 函数 时 ， 必 须 对 每 个 函数 进行 正确 性 验证 ， 检 
提示 及 相应 的 处 理 。 这 样 ， 将 大 部 分 的 错误 处 理工 作 都 压 


者 不 处 理 或 不 能 够 正确 处 理 函 数 的 返回 值 ， 那 么 将 可 能 出 现 没有 被 处 理 的 错误 ， 其 导致 的 结果 是 难以 预料 


最 后 ， 如 果 一 个 函数 既 需 要 返回 内 部 的 处 理 结果 ， 又 需要 通过 返回 值 来 确认 函数 的 执行 成 功 与 否 ， 这 样 就 很 容易 造成 返回 值 冲突 的 问题 。 例 如 ， 假 设 某 个 统计 函数 返回 值 为 0%， 调 


个 返回 值 0 是 函数 统计 的 计算 结果 为 0， 还 统计 函数 执行 失败 而 返回 的 0。 


因此 ， 建 议 谨 慎 使 


函数 返回 值 方式 的 错误 处 理 策略 。 


建议 100: 尽量 避免 使 用 goto 进 行 出 错 跳 转 


对 于 goto 语 句 ， 相 信 大 家 都 再 熟悉 不 过 了 ， 前 面 的 章节 也 有 所 阐述 。 虽 然 它 存在 着 许多 争议 ， 需 要 尽量 避免 使 
地 跳出 多 层 循环 ， 执 行 无 条 件 直接 跳 转 。 因 此 ， 它 特别 适合 用 于 编写 系统 程序 ， 它 能 使 编写 出 来 的 代码 非常 简练 。 


除 此 之 外 ，goto 语 名 支持 简单 的 错误 编码 模型 ， 它 能 把 错误 处 理 模块 的 代码 有 效 地 与 其 他 逻辑 处 理 代码 分 离开 。 如 下 


H 


。 但 不 得 不 承认 的 是 ，goto 语 句 还 是 有 许多 优点 与 


的 示例 代码 所 示 : 


途 的 。 例 如 ， 


者 将 很 难 准确 判断 这 


goto 语 句 可 以 轻松 


void Test () 
A 
if (F2 () ) 
/* 正 常 的 处 理 */ 
/+ 直接 下 辕 到 错误 处 理 模 块 */ 


else 
goto Error; 


} 

/* 直 接 跳 转 错误 处 理 模块 */ 

else 

goto Error; 

/* 错 误 处 理 模块 */ 
Error: 

ProcessError () ; 

/* 程 序 结束 处 理 */ 
i 


从 上 面 的 代码 中 不 难 发 现 ，goto 语 句 的 确 为 程序 的 错误 处 理 提供 了 一 种 更 为 简单 的 途径 与 方式 。 但 尽管 如 此 ， 还 是 不 建议 使 


主要 有 以 下 两 方面 。 


goto 语 句 进行 出 错 跳 转 ， 原 因 


回 


首先 ， 由 于 goto 语 句 可 以 灵活 跳 转 ， 如 果 不 加 限制 
给 程序 带 来 灾难 性 的 错误 与 潜在 的 安全 隐患 。 


， 它 将 会 破坏 程序 的 结构 化 设计 风格 ， 使 代码 难于 理解 与 测试 。 同 时 ， 不 放 


其 次 ， 对 错误 处 理 而 言 ， 它 只 能 是 在 函数 的 局 部 作 


域内 跳 转 ， 而 不 能 实现 跨 函 数 跳 转 。 


建议 101: 尽量 避免 使 用 setimp 与 longjmp 组 合 


0 限制 地 使 


可 能 跳 过 变量 的 初始 化 、 重 : 


goto 语 句 ， 


的 计算 等 语句 ， 从 而 


前 面 已 经 阐述 过 ， 对 错误 处 理 而 言 ，goto 语 句 只 能 是 在 函数 的 
需要 放弃 当前 任务 ， 从 多 层 函 数 调用 中 返回 ， 并 且 在 较 高 


很 显然 ， 遇 到 这 种 场景 ，goto 语 句 就 显得 无 能 为 力 了 ， 而 setjmp 宏 和 longjmp 浮 数组 合 就 提供 了 这 一 功能 ， 它 们 能 够 提供 一 种 在 程序 中 实现 “ 非 本 地 局 部 跳 转 ” 


义 如 下 : 


局 部 作 
慨 级 的 函数 中 继续 执行 (或许 是 在 main () 


函数 中 ) 。 要 做 到 这 一 点 ， 


域内 跳 转 ， 而 不 能 实现 跨 函 数 跳 转 。 但 在 实际 错误 处 理 中 ， 经 常会 遇 到 这 样 的 场景 : 
可 以 让 每 个 函数 都 返回 一 个 状态 值 ， 由 函数 的 调 


在 一 个 深度 由 套 的 函数 调 


中 发 生 了 错误 ， 
者 检查 并 做 相应 处 理 。 


(non-local goto) 的 机 制 。 其 原型 定 


int setjmp ( jmp buf env ) ; 


void longjmp ( jmp buf env, ;int value ) ; 


从 上 面 的 原型 定义 中 可 以 看 出 ，setjmp 宏 与 longjmp 函 数 都 使 


jmp_buf 结 构 作 为 形 参 以 保存 程序 当前 的 堆栈 环境 ， 它 们 的 调 


程序 首先 需要 调 


setjmp 宏 函数 来 初始 化 mp_buf 结 构 体 变量 env， 并 将 当前 的 堆栈 环境 信息 存 入 env 中 ， 为 以 后 调用 longjmp 函 数 恢复 原来 环境 信息 时 使 


为 0; 如 果 由 于 调用 longjmp 函 数 而 调 有 


1) 第 一 次 是 初始 化 时 ， 返 回 值 为 0。 


ongjmp 函 数 调 


2) 第 二 次 则 是 在 遇 到 


相对 于 setjimp 函 数 有 


setjmp， 那 么 它 的 返回 值 为 


后 ，longjmp 函 数 将 使 setjmp 发 生 第 二 次 返回 ， 


于 保存 程序 的 运行 时 的 当前 堆栈 环境 ，longjmp 函 数 则 


FE0。 由 此 可 见 ，setjmp 宏 函数 能 返回 两 次 : 


返 


日 


于 恢复 在 先前 程序 中 调 
， 程 序 继续 得 以 执行 。 如 下 


的 示例 代码 所 示 : 


日 


值 由 longjmp 遂 数 的 第 二 个 参数 给 


关系 是 这 样 的 : 


。 如 果 是 直接 调 


setjmp， 那 么 它 的 返回 值 


出 ， 返 回 值 为 非 0。 


setjmp 函 数 时 所 保存 的 堆栈 环境 。 当 调用 longjmp 函 数 时 ， 它 会 根据 变量 env 所 保存 的 堆栈 环境 


来 恢复 先前 的 环境 。 与 此 同时 ，longjmp 函 数 的 value 参 数值 会 被 setjmp 函 数 返 回 


#include <stdio.h> 
#include <setjmp.h> 
jmp buf buf; 
void F2 (void) 
{ 
BelintE ("FE2 €) Wary 汪 
longjmp (buf, 1) ; 


void F1 (void) 

{ 
F203 

eintE (LA Vu 

int main (void) 

{ 
int jmpret = setjmp (buf) ; 
if (! jmpret) 

和 

else 


Printf ("继续 执行 main\n") ; 


return 0; 


运行 结果 如 图 


11-5 所 示 。 


maweiclamp: 二 /程序 设计 六 
的 端 (T) 才 助 (H) 


区 人 忻 (F)】 编辑 (E) 查看 (V) 搜索 (5) 
[mawei@lamp cj]$ gcc Test.c 
[mawei@lamp cj]$ ./a.out 

F2(} 

浴 继 执行 main 


11-5 示例 代码 的 运行 结果 


从 上 面 的 代码 中 可 以 看 出 ， 对 goto 语 句 而 言 ， 
误 处 理 时 ， 必 须 注意 如 下 两 点 。 


setjmp 宏 与 longjmp 函 数 不 仅 能 够 实现 跨 函 数 的 全 局 跳 转 ， 而 且 其 错误 处 理 方式 也 比 goto 语 句 优雅 得 多 。 但 是 ， 在 使 有 


setjimp 宏 与 longjmp 函 数 进行 错 


1) setjmp 宏 与 longjmp 函 数组 合 使 


时 ， 它 们 必须 有 严格 的 先后 执行 顺序 。 


也 就 是 说 ， 必 须 先 调用 setjmp 来 初始 化 mp_buf 结 构 体 变量 env 之 后 ， 才 能 够 调用 longjmp 函 数 来 恢复 到 先前 被 保存 的 堆栈 环境 ( 即 程序 执行 点 ) 。 如 果 在 setjmp 调 用 之 前 执行 longjmp 函 数 ， 那 么 将 
导致 程序 的 执行 流 变 得 不 可 预测 ， 很 容易 导致 程序 崩 省 而 退出 。 


2) longjmp 函 数 必须 在 setjmp 的 作用 域 之 内 。 


在 一 个 函数 中 使 
说 ，setjmp 将 发 生 调 有 


行 。 


setjmp 来 初始 化 一 个 全 局 变量 jmp_buf buf) buf 之 后 ， 只 要 这 个 函数 没有 被 返回 ， 那 么 在 其 他 任何 地 方 都 可 以 通过 longjmp 调 用 来 跳 转 到 setjmp 的 下 一 条 语句 执行 。 也 就 是 
处 的 局 部 堆栈 环境 保存 在 一 个 mp_buf 结 构 体 变量 env 中 ， 只 要 主 调 函数 中 对 应 的 内 存 未 曾 释放 ， 在 调用 longjmp 的 时 候 就 可 以 根据 已 保存 的 jmp_buf 参 数 恢 复 到 setimp 的 地 方 执 


其 实 ， 从 上 面 的 程序 示例 代码 中 不 难看 出 ， 如 果 说 goto 语 句 使 程序 变 得 难以 阅读 ， 那 么 setjimp 宏 与 longjmp 函 数组 合 这 种 非 
意 多 个 函数 间 传 递 控制 。 因 此 ， 应 当 谨 慎 使 用 它们 ， 尽 可 能 避免 在 实际 编码 中 使 用 setjimp 宏 与 longjmp 函 数组 合 。 尽 管 如 此 ， 在 编写 信号 处 理 器 时 ， 它 们 偶尔 还 是 会 派 上 


局 部 跳 转 会 让 整个 代码 的 糟糕 程度 增加 一 个 数量 级 ， 
场 的 。 


为 它 能 在 程序 中 的 任 


最 后 ， 需 要 注意 的 是 ， 无 论 使 用 什么 样 的 错误 处 理 方式 ， 都 不 要 忘记 发 现 程序 中 错误 的 最 好 方法 其 实 是 执行 程序 ， 对 代码 进行 逐条 跟踪 ， 这 样 可 以 观察 数据 在 函数 中 的 流动 ， 同 时 检查 出 类 似 于 上 溢 和 
下 溢 错 误 、 数 据 转 换 错误 、NULL 指 针 错误 、 错 误 的 内 存单 元 、 用 = 代替 ==、 运 算 优先 级 错误 、 逻 辑 运 算 等 错误 。 


也 不 尽 相 
所 示 。 


第 12 章 ”内存 管理 


给 庸 置疑 ，C 语 言 中 的 内 存 管 理 是 一 些 相关 的 编程 与 操作 系统 书籍 不 惜 笔墨 重点 讨论 的 内 容 ， 无 论 市 面 上 或 是 网 上 都 充斥 着 大 量 涉及 内 存 管 理 的 教材 和 资料 。 它 就 像 一 把 双 刃 剑 : 一 方面 ， 有 一 定 修 为 
的 编程 高 手 可 以 很 简单 地 利用 这 把 利器 从 中 获得 了 更 好 的 性 能 与 更 大 的 自由 ; 另 一 方面 ， 刚 入 门 的 菜鸟 同学 们 则 需要 整 天 一 遍 又 一 遍地 检查 内 存 代 码 ， 提 心 吊 胆 随时 会 爆发 内 存 问 题 所 导致 的 致命 的 程序 


建议 102: 浅 谈 程序 的 内 存 结构 


Bug。 但 不 论 怎样 ， 内 存 管理 在 C 语 言 编程 中 确实 无 处 不 在 ， 且 不 可 缺少 ， 而 内 存 分 配 错误 、 内 存 越界 、 内 存 泄漏 等 问题 在 每 个 C 语 言 程序 中 几乎 都 会 发 生 。 因 此 ， 本 章 的 相关 编程 建议 将 是 掌握 C 语 言 内 存 
管理 的 必 经 之 路 ， 必 须 认真 对 待 。 


峡 良 置疑 ， 在 操作 系统 中 所 有 的 进程 (执行 的 程序 ) 都 会 占用 一 定数 量 的 内 存 ， 它 们 或 者 是 用 来 存放 从 磁盘 载 入 的 程序 代码 ， 又 或 者 是 存放 相关 的 用 户 输入 数据 等 。 不 同 的 内 存 用 途 其 内 存 的 管理 方式 


同 ， 比 如 有 些 内 存 是 需要 事先 静态 分 配 和 统一 回收 的 ， 而 还 有 一 些 内 存 则 需要 按 需 进行 动态 分 配 和 回收 。 不 论 如 何 ， 对 任何 一 个 普通 C 程 序 来 讲 ， 它 们 都 会 涉及 如 下 5 种 不 同 的 数据 区 域 ， 如 图 12-1 


对 于 图 12-1 所 描述 的 内 存 结构 ， 相 信 大 家 再 熟悉 不 过 了 ， 这 里 就 不 再 对 每 一 


区 域 进行 详细 描述 。 这 里 ， 为 了 加 深 读者 的 理解 ， 深 刻 认识 图 12-1 中 各 种 内 存 区 的 差别 与 位 置 ， 下 面 将 通过 一 段 示例 代码 


(该 示例 代码 原型 取 自 《User-Level Memory Management》) 进行 演示 ， 如 代码 清单 12-1 所 示 。 


未 初始 化 数据 段 〈.bss ) 


已 初始 化 数据 段 〈.data ) 


代 公 上段 〈.text) 


存储 时 的 区 域 


代码 清单 12-1 图 12-1 中 各 种 内 存 区 的 差别 与 位 置 的 测试 程序 


本 《stack ) 


回 下 增长 


回 上 增长 


未 初始 化 数据 段 〈.bss ) 


已 初始 化 数据 段 〈.data ) 


代码 上段 〈.text ) 


运行 时 的 区 域 


图 12-1 C 程 序 的 内 存 结构 


#include<stdio.h> 

#include<malloc.h> 

#include<unistd.h> 

int bss var; 

int data var0=1; 

int main (int argc, char **argv) 

{ 
printf ("below are addresses of types of process's mem\n") ; 
printf ("Text location: \n") ; 
printf ("\tAddress of main (Code Segment) : spNn"，main) ; 
printf (" \n"); 
int stack var0=2; 
printf ("Stack Location: Na") 
printf ("\tInitial end of stack: S$p\n", &stack var0) ; 
int stack varl=3; | 
printf ("\tnew end of stack: %p\n", &stack varl) ; 
printf (" Nn 


printf ("Data Location: \n") ; 

printf ("\tAddress of data : var (Data Segment) : $p\n", &data var0) ; 
static int data varl=4; 

printf ("\tNew end of data : var (Data Segment) : Sp\n", &data varl) ; 
PrintE (™ Nonny 
printf ("BSS Location: \n"™); 

printf ("\tAddress of bss_var: g%p\n"，g&bss_var) ; 

SintEE 《9 党 

char xb = sbrk ( (ptrdiff t) 0) ; 

printf ("Heap Location: \n") ; 

printf ("\tInitial end of heap: $p\n", b) 

brk (b+4) ; 

b=sbrk ( (ptrdiff t) 0) ; 

printf ("\tNew end of heap: $p\n", b) ; 

return 0; 


代码 清单 12-1 的 运行 结果 如 图 12-2 所 示 。 


EE Hs 
文件 (FE) 编辑 (E) 查看 (V) 搜索 (5) ”终端 (T) 帮助 (H) 


[mawei@lamp c]$ gcc Test.c 
[mawei@lamp cj$ ./a.out 
below are addresses of types of process's mem 
Text location: 
Address of main{Code Segment):0x8048444 


Stack Location: 
Initial end of stack:Qxbfccf2b8 
new end of stack:Qxbfccf2b4 


Data Location: 
Address of data var(Data Segment) :9x86499b6 
New end of data var(Data Segment) :9x89499b4 


BSS Location: 
Address of bss Var:9x869499c8 


Heap Location: 
Initial end of heap:6x87cb666 
New end of heap:9x87cb964 


图 12-2 ”代码 清单 12-1 的 运行 结果 


图 12-2 的 运行 结果 已 经 很 清楚 地 描述 这 5 个 区 的 差别 与 存储 位 置 。 接 下 来 ， 通 过 nm 指令 ， 可 以 更 加 清楚 地 查看 其 结果 : 


[maweiQe@lamp c]$ nm -Ss ./a.out 

080498bc d DYNAMIC 

08049988 d _GLOBAL ( OFFSET TABLE 

0804867c 00000004 R _IO stdin used 
WwW _Jv RegisterClasses 

080498ac d _ CTOR END 

080498a8 d CTOR LIST 


080498b4 D _ DTOR END 
080498b0 d _ DTOR LIST 
080488a4 FRAME END 
080498b8 d _ JCR END 
080498b8 d _ JCR LIST 


080499b8 R bss start 
080499ac Ddata start 
08048630 七 _ do global ctors aux 
080483c0 七 ”do ) global « _ dtors ~ aux 
08048680 S dso handle 

gmon start 
0804862a 了 i686.get pc thunk.bx 
080498a8 d init : array_end 
080498a8 d _ init array start 
080485c0 00000005 了 T libc csu fini 
080485d0 0000005a 了 _ ibe | csu init 

U _ libc start main@@GLIBC 2.0 
080499b8 A edata 
080499c4 A _end 
0804865c T fini 
08048678 00000004 R _fp hw 
080482ec T init 
08048390 T _start 
U brk@@GLIBC 2.0 

080499c0 00000004 B bss_ var 
080499b8 00000001 b completed.5963 
080499ac W data start 
080499b0 00000004 D data var0 


080499b4 00000004 d qata_var1.2377 
080499bc 00000004 b dtor idx.5965 
08048420 七 frame dummy 
08048444 0000016f T main 

U printf@Q@GLIBC 2.0 

U puts@@GLIBC 2.0 

U sbrk@@GLIBC 2.0 


通过 elf 文 件 信息 ， 还 能 够 获取 更 加 详细 的 信息 ， 如 图 12-3 所 示 。 


mawei@lamp:~/ 程 序 设计 /Cc 
文件 (F) 编辑 (E) 查看 (V) 搜索 (S) ”终端 们 帮助 (H) 


[mawei@lamp c]$ gcc Test.c -g -Wall -0 Test 
[mawei@lamp c]$ readelf -a Test>Test.txt 
[mawei@lamp c]5$ 目 


图 12-3 ”查看 elf 文 件 信息 指令 


在 图 12-3 中 ， 通 过 “readelf-a Test>Test.txt” 指 令 将 可 执行 程序 Test 的 信息 导出 到 文本 文件 Test.txt 中 。 其 中 ，Test.txt 文 件 的 部 分 信息 如 下 : 


ELF Header: 
Magic: 7f 45 4c 46 01 01 01 03 00 00 00 00 00 00 00 00 
Class: ELF32 
Data: 2's complement, little endian 
Version: 1 (current) 
OS/ABI: UNIX - Linux 
ABI Version: 0 
Type: EXEC (Executable file) 
Machine: Intel 80386 
Version: 0x1 
Entry point address: 0x8048390 
Start of program headers: 52 (bytes into file) 
Start of section headers: 3920 (bytes into file) 
Flags: 0x0 
Size of this header: 52 (bytes) 
Size of program headers: 32 (bytes) 
Number of program headers: 8 
Size of section headers: 40 (bytes) 
Number of section headers: 38 


Section header string table index: 35 
Section Headers: 


Nr] Name Type Addr Off Size ES Flg Lk Inf Al 
0 NULL 00000000 000000 000000 00 0 0 0 
1] .interp PROGBITS 08048134 000134 000013 00 A 0 01 
2] .note.ABI-tag NOTE 08048148 000148 000020 00 A 0 0 4 
3] .note.gnu.build-i NOTE 08048168 000168 000024 00 A 0 0 4 
4] .gnu.hash GNU HASH 0804818c 00018c 000020 04 A 5 0 4 
5] .dynsym DYNSYM 080481lac O0001lac 000080 10 A 6 1 4 
6] .dynstr STRTAB 0804822c 00022c 000056 00 A 0 0 1 
7] .gnu.version VERSYM 08048282 000282 000010 02 A 5 0 2 
8] .gnu.version r VERNEED 08048294 000294 000020 00 A 6 1 4 
9] .rel.dyn x REL 080482b4 0002b4 000008 08 A 5 0 4 
10] .rel.plt REL 080482bc 0002bc 000030 08 A 5 12 4 
11] .init PROGBITS 080482ec 0002ec 000030 00 AxX 0 0 4 
12] Bt PROGBITS 0804831lc 00031c 000070 04 MX 0 0 4 
13] .text PROGBITS 08048390 000390 0002cc 00 MX 0 016 
14] .fini PROGBITS 0804865c 00065c 00001lc 00 AX 0 0 4 
15] .rodata PROGBITS 08048678 000678 00018e 00 A 0 0 4 
16] .eh frame hdr PROGBITS 08048808 000808 000024 00 A 0 0 4 
17] .eh frame PROGBITS 0804882c 00082c 00007c 00 A 0 0 4 
18] .ctors PROGBITS 080498a8 0008a8 000008 00 WwA 0 0 4 
19] .dtors PROGBITS 080498b0 0008b0 000008 00 WA 0 0 4 

Dl -jor PROGBITS 080498b8 0008b8 000004 00 WA 0 0 4 

21] .dynamic DYNAMIC 080498bc 0008bc 0000c8 08 WA 6 0 4 

22] .got PROGBITS 08049984 000984 000004 04 WwA 0 0 4 

23] .got.plt PROGBITS 08049988 000988 000024 04 WwA 0 0 4 

24] .data PROGBITS 080499ac 0009ac 00000c 00 WA 0 0 4 

25] .bss NOBITS 080499b8 0009b8 00000c 00 WA 0 0 4 

26] .comment PROGBITS 00000000 0009b8 00002d 01 MS 0 0 1 

27] .debug aranges PROGBITS 00000000 0009e5 000020 00 站 这 王 

28] .debug pubnames PROGBITS 00000000 000a05 000035 00 0 全 

29] .debug info PROGBITS 00000000 000a3a 000139 00 0 0 1 

30] .debug abbrev PROGBITS 00000000 000b73 0000a8 00 和 ”有 入 

31] .debug line PROGBITS 00000000 000clb 00008e 00 从 用 和 

32] .debug frame PROGBITS 00000000 000cac 000034 00 0 0 4 

33] .debug str PROGBITS 00000000 000ce0 0000e5 01 MS 0 0 1 

34] .debug pubtypes PROGBITS 00000000 000dc5 000020 00 0 0 1 

35] .shstrtab STRTAB 00000000 000gde5 000169 00 0 0 1 

36] .symtab SYMTAB 00000000 001540 0004f0 10 37 54 4 

37] .strtab STRTAB 00000000 001a30 00024c 00 0 0 1 


哆 | 


12-4 所 示 。 


最 后 ， 利 用 size 命 令 ， 还 可 以 清楚 地 看 见 程序 的 各 段 大 小 ， 如 


EET 
文件 (F) 编辑 (E) 查看 (V) 搜索 (5S) ”终端 TT) 帮助 


[mawei@lamp c]$ size ./a.out 


text data bss dec hex filename 
1899 272 12 2183 887 ./a.0Uf 
[mawei@lamp c]$ 上 国 


网 


12-4 ”示例 程序 各 段 的 大 小 


建议 103: 浅 谈 堆 和 栈 


在 计算 机 领域 ， 堆 栈 绝对 是 一 个 不 容 忽视 的 概念 ， 并 且 在 编写 C 语 言 程序 的 时 候 也 会 频繁 用 到 。 但 对 大 多 数 C 语 言 初学 者 来 说 ， 堆 栈 却 是 一 个 很 模糊 的 概念 。 “堆栈 : 一 种 数据 结构 ， 一 个 在 程序 运行 时 
于 存放 的 地 方 ”， 相 信 这 可 能 是 很 多 初学 者 共同 的 认识 ， 这 也 是 大 部 分 教科 书 对 “堆栈 ”的 解释 。 


很 显然 ， 用 这 么 简单 的 概括 来 解释 “堆栈 ”是 不 合适 的 。 要 深刻 认识 堆 和 栈 的 概念 与 区 别 ， 还 必须 从 如 下 两 方面 说 起 。 


J 


(1) 数据 结构 的 堆 和 栈 


在 数据 结构 中 ， 栈 是 一 种 可 以 实现 “先进 后 出 ” (或 者 称 为 “后 进 先 出 ”) 的 存储 结构 。 假 设 给 定 栈 S= (a0，a1，…，an-1) ， 则 称 ao 为 栈 底 ，an-1 为 栈 项 。 进 栈 则 按照 ao，a1，…，an-1 的 顺序 进行 
进 栈 ; 而 出 栈 的 顺序 则 需要 反 过 来 ， 按 照 “ 后 存放 的 先 取 ， 先 存放 的 后 取 ” 的 原则 进行 ， 则 an-1 先 退出 栈 ， 然 后 an-2 才 能 够 退出 ， 最 后 再 退出 a0。 


在 实际 编程 中 ， 可 以 通过 两 种 方式 来 实现 : 使 用 数组 的 形式 来 实现 栈 ， 这 种 栈 也 称 为 静态 栈 ; 使 用 链表 的 形式 来 实现 栈 ， 这 种 栈 也 称 为 动态 栈 。 


相对 于 栈 的 “先进 后 出 ”特性 ， 堆 则 是 一 种 经 过 排序 的 树 形 数据 结构 ， 常 用 来 实现 优先 队列 等 。 假 设 有 一 个 集合 K={ko，k1，.…，Kkn-1}， 把 它 的 所 有 元 素 按 完全 二 又 树 的 顺序 存放 在 一 个 数组 中 ， 并 且 
满足 : 


ki 三 kzis1 是 厂 三 kzit (或 者 i 三 koirl 目 ki; 三 hi? ) (i=0,， 1， -Ss (n—2 ) /2 ) 


则 称 这 个 集合 K 为 最 小 堆 (或 者 最 大 堆 ) 。 


由 此 可 见 ， 堆 是 一 种 特殊 的 完全 二 叉 树 。 其 中 ， 节 点 是 从 左 到 右 填 满 的 ， 并 且 最 后 一 层 的 树叶 都 在 最 左边 ( 即 如 果 一 个 节点 没有 左 儿 子 ， 那 么 它 一 定 没有 右 儿子 ) ;每 个 节点 的 值 都 小 于 (或 者 都 大 
于 ) 其 子 节点 的 值 。 


(2) 内 存 分 配 中 的 堆 和 栈 


在 C 语 言 中 ， 内 存 分 配方 式 不 外 平 有 如 下 三 种 形式 : 


“ 从 静态 存储 区 域 分 配 : 它 是 由 编译 器 自动 分 配 和 释放 的 ， 即 内 存在 程序 编译 的 时 候 就 已 经 分 配 好 ， 这 块 内 存在 程序 的 整个 运行 期 间 都 存在 ， 直 到 整个 程序 运行 结束 时 才 被 释放 ， 如 全 局 变量 与 static 变 


je 


“ 在 栈 上 分 配 : 它 同样 也 是 由 编译 器 自动 分 配 和 释放 的 ， 即 在 执行 函数 时 ， 函 数 内 局 部 变量 的 存储 单元 都 可 以 在 栈 上 创建 ， 函 数 执行 结束 时 这 些 存储 单元 将 被 自动 释放 。 需 要 注意 的 是 ， 栈 内 存 分 配 运 
算 内 置 于 处 理 器 的 指令 集中 ， 它 的 运行 效率 一 般 很 高 ， 但 是 分 配 的 内 存 容 量 有 限 。 


: 从 堆 上 分 配 : 也 被 称 为 动态 内 存 分 配 ， 它 是 由 程序 员 手 动 完成 申请 和 释放 的 。 即 程序 在 运行 的 时 候 由 程序 员 使 用 内 存 分 配 函 数 〈( 如 malloc 函 数 ) 来 申请 任意 多 少 的 内 存 ， 使 用 完 之 后 再 由 程序 员 自己 负 
责 使 用 内 存 释放 函数 〈 如 free 函 数 ) 来 释放 内 存 。 也 就 是 说 ， 动 态 内 存 的 整个 生存 期 是 由 程序 员 自己 决定 的 ， 使 用 非常 灵活 。 需 要 注意 的 是 ， 如 果 在 堆 上 分 配 了 内 存 空 间 ， 就 必须 及 时 释放 它 ， 否 则 将 会 导致 
运行 的 程序 出 现 内 存 泄 漏 等 错误 。 


由 此 可 见 ， 内 存 分 配 的 堆栈 与 数据 结构 中 所 阐述 的 堆栈 有 着 本 质 的 区 别 ， 这 一 点 千 万 不 要 混淆 。 同 样 ， 在 内 存 分 配 中 的 堆 和 栈 也 存在 着 很 大 的 区 别 ， 也 不 要 混淆 这 两 者 的 概念 。 


为 了 加 深 理解 ， 看 下 面 一 段 示 例 代 码 ， 如 代码 清单 12-2 所 示 。 


代码 清单 12-2 ”区 别 内 存 分 配 中 的 堆 和 栈 


#include <stdio.h> 
#include <malloc.h> 
int main (void) 
{ 
/* 在 栈 上 分 配 */ 
int i1=0; 
int i2=0; 
int i3= 
int i4=: 
Printf (" 栈 : 向 下 \n") ; 
printf ("il=0x%08x\n", &i1) ; 
printf ("i2=0x%08x\n", &i2) ; 
printf ("i3=0x%08x\n", &i3) ; 
printf ("i4=0x%08x\n\n", &i4) ; 


Printf (~=————————————————~ NnN\n") 3 
/* 在 堆 上 分 配 */ 
char *pl = (char *) malloc (4) ; 


char *p2 = (char *) malloc (4) ; 
char *p3 = (char *) malloc (4) ; 
char *p4= (char *) malloc (4) ; 
printf ("pl=0x%08x\n", pl) ; 
Printf ("p2=0x%08x\n", p2) ; 
printf ("yp: %08x\n", p3) ; 
Printf ("p4=0x%08x\n", p4) ; 
printf (" 堆 : 向 上 \n\n") ; 

/* 释 放 堆 内 存 */ 

free (P1) ; 


P2=NULL; 
free (P3) ; 
P3=NULIL; 
free (P4) ; 
Pp4=NULL; 
return 0; 


从 代码 清单 12-2 中 不 难 发 现 ， 该 示例 代码 主要 演示 了 在 内 存 分 配 中 的 堆 和 栈 的 区 别 ， 其 运行 结果 如 图 12-5 所 示 。 


文件 (F) 编辑 (E) 坦 看 (V) 搜索 (5) 


LUUETWSEG] ET RE 村 二 六 二 人 


终端 (T) 帮助 (H) 


[mawei@lamp c]$ gcc -5 Test.c 
[mawei@lamp c]$ ./a.out 
栈 : 同 下 


Il=6xbf862fdc 
i2=9xbf862fd8 
i3=0xbf862fd4 
1i4=6xbf862fdg 


p1=8x994dd998 
p2=6x694dd918 
p3=6x694dd628 
p4=6x994dd638 
堆 :向 上 


从 图 12-5 的 运行 结果 中 不 难 发 现 ， 内 存 中 的 栈 


区 主要 


用 于 分 配 


ee 
局 部 变量 空 


图 12-5 ”代码 清单 12-2 的 运行 结果 


间 ， 处 于 相对 较 高 的 地 址 ， 其 栈 地 址 是 向 下 增长 的 ;而 堆 


了 让 大 家 更 加 清楚 地 看 见 其 分 配 情况 ， 现 列 出 代码 清单 12-2 的 汇编 代码 ， 示 例 代码 如 下 : 


区 则 


王女， 


用 于 分 配 程序 员 


请 的 内 存 空 间 ， 堆 地 址 是 向 上 增长 的 。 为 


.file 
.Section 


.string 
.String 
.String 
.string 
.string 
.string 
.string 
.string 
.string 


.String 


.type 
main: 
pushl 
movl 
and] 
subl 
movl 
movl 
movl 
movl 
movl 
call 
movl 
leal 
movl 
movl 
call 
movl 
leal 
movl 
movl 
call 
movl 
leal 
movl 
movl 
call 
movl 
leal 
movl 
movl 
call 
movl 
call 
movl 
call 
movl 
movl 
call 
movl 
movl 
call 
movl 
movl 
call 
movl 
movl 
movl 


"Test,o" 
.rodata 


"\346\240\210: \345\220\221\344\270\213" 


"il=0x%08x\n" 
"i2=0x%08x\n" 
"i3=0x%08x\n" 


"i4=0x%08x\n\n" 


"pl=0x%08x\n" 
"p2=0x%08x\n" 
"p3=0x%08x\n" 


"p4=0x%08x\n" 


"\345\240\206: \345\220\221\344\270\212\n" 


main, Q@function 
gebp 

Sesp, %ebp 

$-16, Sesp 

$48,， sesp 

$0, 28 (Sesp) 
$0, 24 (Sesp) 
$0,， 20 (Sesp) 
$0,， 16 (%esp) 
$.IC0 (sesp) 
Puts 

$.LC1, S%eax 

28 (%esp) ， %edx 
Sedx, 4 (%esp) 
Seax, (Sesp) 
printf 

$.LC2, Seax 

24 (%esp) ， Sedx 
Sedx, 4 (%esp) 
Seax, (Sesp) 
printf 

$.LC3, Seax 

20 (%esp) ， %edx 
Sedx, 4 (%esp) 
Seax, (%esp) 
printf 

$.LC4, Seax 

16 (%esp) ， %edx 
Sedx, 4 (%esp) 
Seax, (Sesp) 
printf 

$.1C5 (sesp) 
puts 

$4, (gesp) 
malloc 

Seax, 32 ($esp) 
$4, (Sesp) 
malloc 

Seax, 36 (%esp) 
$4, (Sesp) 
malloc 

Seax, 40 ($esp) 
$4, (Sesp) 
malloc 

Seax, 44 (%esp) 
$.LC6, Seax 


32 (sesp) ， sedx 


Sedx, 


4 (%esp) 


movl Seax, (Sesp) 
call printf 
movl $.LC7, %eax 
movl 36 (%esp) ， %edx 
movl Sedx, 4 (%esp) 
movl Seax, (S$%esp) 
call printf 
movl $.LC8, Seax 
movl 40 (Sesp) ， %edx 
movl Sedx, 4 (%esp) 
movl Seax, (Sesp) 
call printf 
movl $.LC9, %eax 
movl 44 (%esp) ， %edx 
movl Sedx, 4 (%esp) 
movl Seax, (Sesp) 
call printf 
movl $.LC10,  (%esp) 
call puts 
movl 32 (%esp) ， %eax 
movl Seax, (%esp) 
call free 
movl $0,， 32 (%esp) 
movl 36 (%esp) ， %eax 
movl Seax, (Sesp) 
call free 
movl $0, 36 (%esp) 
movl 40 (Sesp) ， %eax 
movl Seax, (Sesp) 
call free 
movl $0, 40 (%esp) 
movl 44 (Sesp) ， %eax 
movl Seax, (Sesp) 
call free 
movl $0, 44 (Sesp) 
movl $0, Seax 
leave 
rat 

通过 代码 清单 12-2 与 其 所 生产 的 汇编 代码 可 以 直观 看 出 ， 内 存 分 配 中 的 栈 与 堆 主 要 存在 如 下 区 别 。 


1) 分 配 与 释放 方式 。 
栈 内 存 是 由 编译 器 


静态 分 配 是 由 编译 器 自动 完成 的 ， 如 
了 后 就 释放 ， 并 不 可 以 再 次 访问 。 


动态 分 配 由 alloca 函 数 进 行 分 配 ， 但 是 栈 的 动态 分 配 与 堆 是 不 同 的 ， 它 | 
数 的 可 移植 性 很 差 ， 而 且 在 没有 传统 堆栈 的 机 器 上 很 难 实现 。 


而 堆 内 存 则 不 相 


自 翅 


同 ， 它 完全 是 由 程序 员 手动 


free 函 数 ) 释放 内 存 ， 如 下 面 的 代码 所 示 : 


/* 分 配 堆 内 存 */ 


char *pl = (char *) malloc (4) ; 


/* 释 放 堆 内 存 */ 
free (pl) 3 
Pl1=NULL; 


对 栈 内 存 的 


自动 释放 而 言 ， 


虽然 堆 上 的 数 折 


2) 分 配 的 碎片 问题 。 


分 配 与 释放 的 ， 它 有 两 种 分 配方 式 : 静态 分 配 和 动态 分 配 。 


因此 ， 不 宜 使 


请 与 释放 的 ， 程 序 在 运行 的 


的 动态 分 配 是 


时 候 由 


局 部 变量 的 分 配 〈( 即 在 一 个 函数 中 声明 一 个 int 类 型 的 变量 ij 时， 编译 器 就 会 


PI: 


动 开辟 一 块 内 存 以 存 


i) 。 与 此 同时 ， 


由 编译 器 进行 释放 ， 


2 


生存 周期 也 只 在 函数 的 运行 过 程 中 ， 在 


无 需 任何 手工 实现 。 值 得 注意 的 是 ， 


于 广泛 移植 的 程序 中 。 当 然 ， 完 


内 存 分 配 函 数 (如 malloc 函 数 ) 来 申请 任意 多 少 的 


可 以 使 


599 中 的 变 长 数组 来 蔡 代 alloca 函 数 。 


内 存 , 使 


完 再 由 程序 员 自己 负责 使 


届 只 要 程序 员 不 释放 空间 就 可 以 一 直 


访问 ， 但 是 ， 如 果 一 旦 忘记 了 释放 堆 内 存 ， 那 么 将 会 造成 内 存 泄 漏 ， 导 致 程序 出 现 致命 的 潜在 错误 。 


对 堆 来 说， 频繁 分 配 和 释放 (malloc/free) 不 同 大 小 的 堆 空间 势必 会 造成 内 存 空间 的 不 连续 ， 从 而 造成 大 量 碎片 ， 导 致 程序 效率 降低 ;而 对 栈 来 讲 ， 则 不 会 存在 这 个 问题 。 


3) 分 配 的 效率 。 


大 家 都 知道 ， 栈 是 机 器 系统 提供 的 数据 结构 ， 计 算 机 会 在 底 


的 剩余 空间 大 于 所 申请 空间 ， 系 统 就 将 为 程序 提供 内 存 ， 否 则 将 报 异常 提示 栈 溢 出 。 


而 堆 则 不 同 ， 它 是 由 C/C+ + 函数 库 提供 的 ， 它 的 机 制 也 相当 复杂 。 例 如 ， 为 了 分 配 一 块 堆 内 存 ， 首 先 应 该 知道 操作 系统 有 一 个 记录 空闲 内 存 地 址 的 链表 ， 当 系统 收 到 程序 的 
找 第 一 个 空间 大 于 所 
delete 语 句 才 能 正确 释放 本 内 存 空 间 。 另 外 ， 由 了 


层 对 栈 提供 支持 ， 例 如 ， 分 配 专门 的 寄存 器 存放 栈 的 地 址 ， 压 栈 出 栈 都 有 专门 的 执行 指令 ， 这 就 决定 了 栈 的 效率 比较 高 。 


虽然 用 alloca 逊 数 可 以 实现 栈 内 存 的 动态 分 配 ， 但 alloca 函 


内 存 释 放 函 数 (如 


一 般 而 言 ， 只 要 栈 


请 时 ， 


会 遍历 该 链表 ， 寻 


和 请 空间 的 堆 节点 ， 然 后 将 该 节点 从 空闲 节点 链表 中 删除 ， 并 将 该 节点 的 空间 分 配给 程序 。 而 对 于 大 多 数 系统 ， 会 在 这 块 内 存 空间 的 首 地址 处 记录 本 次 分 配 的 大 小 ， 这 样 ， 代 码 中 的 
动 将 多 余 的 那 部 分 重新 放 入 空闲 链表 中 。 很 显然 ， 堆 的 分 配 效 率 比 栈 要 低 得 多 。 


4) 申请 的 大 小 限制 。 


由 于 操作 系统 是 


链表 来 存储 空闲 


而 栈 则 不 同 ， 它 是 一 块 连续 的 内 存 
的 剩余 空间 时 ， 将 会 提示 溢出 错误 。 由 


5) 存储 的 内 容 。 


对 栈 而 言 ， 一 般 用 于 存放 函数 的 参数 与 局 部 变量 等 。 例 如 ， 在 函数 调用 时 ， 第 一 个 进 栈 的 是 (3 
数 ， 在 大 多 数 C 编 译 器 中 ， 参 数 是 由 右 往 左 入 栈 的 ， 最 后 是 函数 中 的 局 部 变 


内 存 地 址 (内 存 


区 域 ， 其 地 址 的 


找到 的 堆 节点 的 大 小 不 一 定 正 好 等 于 申请 的 大 小 ， 系 统 会 


区 域 不 连续 ) 的 ， 同 时 链表 的 遍历 方向 是 由 低地 址 向 高 地 址 进行 的 。 


此 可 见 ， 相 对 于 堆 ， 能 够 从 栈 中 获得 的 空间 相对 较 小 。 


当 本 次 函数 调 


结束 后 ， 遵 循 “ 先 进 后 出 ” 


void f (int i) 
{ 


Printf ("%d, %d, %d, %d\n", 


int main (void) 
{ 
int 六 二 
人 


面 的 示例 代码 可 以 清晰 反映 这 种 入 栈 顺序 : 


Ly 


站 


(或 者 称 为 “后 进 先 出 


的 规则 ， 


局 部 变量 先 出 栈 ， 然 


函数 中 的 ) 调 
量 (注意 static 变 量 是 不 入 栈 的 ) 。 


因此 ， 堆 内 存 的 申请 大 小 受 限 于 计算 机 系统 中 有 效 的 虚拟 内 存 。 


增长 方向 是 向 下 进行 的 ， 向 内 存 地 址 减 小 的 方向 增长 。 由 此 可 见 ， 栈 顶 的 地 址 和 栈 的 最 大 容量 一 般 都 是 由 系统 预先 规定 好 的 ， 如 果 昌 


处 的 下 一 条 指令 (〈 即 函数 调 


后 栈 顶 指针 指向 最 开始 保存 的 地 址 ， 也 就 是 主 函 数 中 的 下 一 条 指令 ， 


请 的 空间 超过 栈 


语句 的 下 一 条 可 执行 语句 ) 的 地 址 ， 然 后 是 函数 的 各 个 参 


程序 由 该 点 继续 


PE 


return 0; 


} 


由 于 栈 的 “先进 后 出 ”规则 ， 所 以 程序 最 后 的 输出 结果 是 “4，3，2，1”。 


对 堆 而 言 ， 具 体 存 储 内 容 由 程序 员 根据 需要 决定 存储 数据 。 


最 后 介绍 一 下 C 语 言 中 各 类 型 变量 的 存储 位 置 和 作用 域 。 


“ 全 局 变量 。 从 静态 存储 区 域 分 配 ， 其 作用 域 是 全 局 作用 域 ， 也 就 是 整个 程序 的 生命 周期 内 都 可 以 使 用 。 与 此 同时 ， 如 果 程序 是 由 多 个 源 文件 构成 的 ， 那 么 全 局 变量 只 要 在 一 个 文件 中 定义 ， 就 可 以 在 
其 他 所 有 的 文件 中 使 用 ， 但 必须 在 其 他 文件 中 通过 使 用 extern 关 键 字 来 声明 该 全 局 变量 。 

“ 全 局 静态 变量 。 从 静态 存储 区 域 分 配 ， 其 生命 周期 也 是 与 整个 程序 同 在 的 ， 从 程序 开始 到 结束 一 直 起 作用 。 但 是 与 全 局 变量 不 同 的 是 ， 全 局 静态 变量 作用 域 只 在 定义 它 的 一 个 源 文 件 内 ， 其 他 源 文件 
不 能 使 用 。 


站 


“ 局 部 变量 。 从 栈 上 分 配 ， 其 作用 域 只 是 在 局 部 函数 内 ， 在 定义 该 变量 的 函数 内 ， 只 要 出 了 该 函数 ， 该 局 部 变量 就 不 再 起 作用 ， 该 变量 的 生命 周期 也 只 是 和 该 函数 同 在 。 


“ 局 部 静态 变量 。 从 静态 存储 区 域 分 配 ， 其 在 第 一 次 初始 化 后 就 一 直 存 在 直到 程序 结束 ， 该 变量 的 特点 是 其 作用 域 只 在 定义 它 的 函数 内 可 见 ， 出 了 该 函数 就 不 可 见 了 。 


建议 104: 避免 错误 分 配 内 存 


C 语 言 主要 提供 malloc、realloc、calloc、alloca 与 aligned_alloc 等 内 存 分 配 函 数 来 实现 对 内 存 的 分 配 功能 。 


1) malloc 函 数 原型 如 下 : 


void * malloc ( size t size ) 


该 函数 用 于 从 堆 中 分 配 内 存 空间 ， 内 存 分 配 大 小 为 size。 如 果 内 存 分 配 成 功 ， 则 返回 首 地 址 ;如果 内 存 分 配 失败 ， 则 返回 NULL。 


2) calloc 函 数 原型 如 下 : 


void * calloc ( size t num, size t size ) ; 


回 


NULL。 


该 函数 用 于 从 堆 中 分 配 num 个 相 邻 的 内 存单 元 ， 每 个 内 存单 元 的 大 小 为 size。 如 果 内 存 分 配 成 功 则 返回 第 一 个 内 存单 元 的 首 地 址 ;否则 内 存 分 配 失败 ， 则 返 


从 功能 上 看 ，calloc 函 数 与 语句 “malloc (num*size) ”的 效果 极其 相似 。 但 不 同 的 是 ， 在 使 用 calloc 函 数 分 配 内存 时 ， 会 将 内 存 内 容 初始 化 为 0。 


3) realloc 函 数 原型 如 下 : 


void * realloc ( void * ptr, Size 七 Size ) ; 


该 函数 用 于 更 改 已 经 配置 的 内 存 空间 ， 它 同样 是 从 堆 中 分 配 内 存 的 。 当 程序 需要 扩大 一 块 内 存 空间 时 ，realloc 函 数 试图 直接 从 堆 上 当前 内 存 段 后 面 的 字 节 中 获得 更 多 的 内 存 空间 ， 即 它 将 首先 判断 当前 
的 指针 是 否 有 足够 的 连续 存储 空间 ， 如 果 有 ， 则 扩大 ptr 指 向 的 地 址 ， 并 且 将 ptr 返 回 (返回 原 指针 ) ; 如 果 当 前 内 存 段 后 面 的 空闲 字 节 不 够 ， 那 么 将 先 按照 size 指 定 的 大 小 分 配 空间 (使 用 堆 上 第 一 个 能 够 满 
足 这 一 要 求 的 内 存 块 ) ， 并 将 原 有 数据 从 头 到 尾 拷贝 到 新 分 配 的 内 存 区 域 ， 然 后 释放 原来 ptr 所 指 内 存 区 域 ， 同 时 返回 新 分 配 的 内 存 区 域 的 首 地 址 ， 即 重新 分 配 存储 器 块 的 地 址 。 


需要 注意 的 是 ， 参 数 ptr 为 指向 先前 由 malloc、calloc 与 realloc 函 数 所 返回 的 内 存 指针 ， 而 参数 size 为 新 分 配 的 内 存 大 小 ， 其 值 可 比 原 内 存 大 或 小 。 其 中 : 


“ 如 果 size 值 比 原 分 配 的 内 存 空间 小 ， 内 存 内 容 不 会 改变 ( 即 新 内 存 保持 原 内 存 的 内 容 ) ， 且 返回 的 指针 为 原来 内 存 的 首 地 址 ( 即 ptr) 。 
“ 如 果 size 值 比 原 分 配 的 内 存 空间 大 ， 则 realloc 不 一 定 会 返回 原来 的 指针 ， 原 内 存 的 内 容 保持 不 变 ， 但 新 多 出 的 内 存 则 设 为 初始 值 。 
最 后 ， 如 果 内 存 分 配 成 功 ， 则 返回 首 地 址 ;如果 内 存 分 配 失败 ， 则 返回 NULL。 


4) alloca 函 数 原型 如 下 : 


void * alloca ( size t size ) ; 


相对 与 malloc、calloc 与 realloc 函 数 ， 函 数 alloca 是 从 栈 中 分 配 内 存 空间 ， 内 存 分 配 大 小 为 size。 如 果 内 存 分 配 成 功 ， 则 返回 首 地址 ; 如 果 内 存 分 配 失败 ， 则 返回 NULL。 也 正 因为 函数 alloca 是 从 栈 中 
分 配 内 存 空 间 ， 因 此 它 会 自动 释放 内 存 空间 ， 而 无 需 手动 释放 。 


5) aligned_alloc 函 数 原型 如 下 : 


void * aligned alloc (size t alignment, size 七 size) ; 


首 地 


回 


该 函数 属于 C11 标 准 提供 的 新 函数 ， 用 于 边界 对 齐 的 动态 内 存 分 配 。 该 函数 按照 参数 alignment 规 定 的 对 齐 方式 为 对 象 进行 动态 存储 分 配 size 个 size _t 类 型 的 存储 单元 。 如 果 内 存 分 配 成 功 ， 则 返 
址 ; 否则 内 存 分 配 失 败 ， 则 返回 NULL。 


相对 于 malloc 函 数 ，aligned _alloc 函 数 保证 了 返回 的 地 址 是 能 对 齐 的 ， 同 时 也 要 求 size 参 数 是 alignment 参 数 的 整数 倍 。 从 表面 上 看 ， 函 数 calloc 相 对 malloc 更 接近 aligned alloc， 但 calloc 函 数 比 
aligned_alloc 函 数 多 了 一 个 动作 ， 那 就 是 会 将 内 存 内 容 初始 化 为 0。 


建议 104-1: 对 内 存 分 配 国 数 的 返回 值 必须 进行 检查 


在 C 语 言 中 ， 常 见 的 内 存 分 配 函 数 的 返回 值 情 况 如 表 12-1 所 示 。 


表 12-1 内 存 分 配 函 数 的 返回 值 


函数 名 成 功 返 回 失败 返回 errno 
malloc 上 向 被 分 配 内 存 的 指针 NULL ENOMEM 
aligned_alloc 向 被 分 配 内 存 的 指针 NULL ENOMEM 
calloc 旨 向 被 分 配 内 存 的 指针 NULL ENOMEM 
realloc 指向 重新 分 配 内 存 的 指针 NULL ENOMEM 


在 调用 表 12-1 中 的 这 些 内 存 分 配 函 数 时 ， 必 须 进 行 返回 值 检查 ， 以 便 能 够 及 时 得 到 内 存 分 配 是 否 成 功 与 失败 (如 果 分 配 失败 则 返回 NULL 指 针 ) ， 这 样 也 可 以 避免 因为 内 存 分 配 错误 而 导致 的 不 可 预知 
和 意外 程序 行为 发 生 ， 如 下 面 的 示例 代码 所 示 : 


char *p = (char *) malloc (100) ; 
if (p 一 NULL) 


/* 处 理 内 存 分 配 错误 ， 并 返回 错误 状态 */ 


retwrn 一 二 


除 通过 使 用 “if (p==NULL) ”或 者 “if (p! =NULL) ”语句 进行 简单 防 错 处 理 之 外 ， 如 果 指 针 p 是 函数 的 参数 ， 那 么 还 可 以 在 函数 的 入 口 处 
配 未 成 功 却 使 用 了 它 的 情况 。 


assert (p! =NULL) 进行 检查 ， 从 而 避免 发 生 内 存 分 


实际 上 ， 在 使 用 malloc 等 分 配 内 存 的 函数 时 ， 一 定 要 检查 其 返回 值 是 否 为 “ 空 指针 ”， 并 以 此 作为 检查 分 配 内 存 操作 是 否 成 功 的 依据 ， 这 种 Test-for-NULL 代 码 形式 是 一 种 良好 的 编程 习惯 ， 也 是 编写 
可 靠 程 序 所 必需 的 。 


建议 104-2: 内 存 资源 的 分 配 与 释放 应 该 限定 在 同一 模块 或 者 同一 抽象 层 内 进行 


在 C 语 言 中 ， 如 果 内 存 的 分 配 和 释放 在 不 同 的 模块 或 抽象 层 内， 不 仅 会 加 大 程序 员 追 踪 内 存 块 生命 周期 的 负担 ， 而 且 可 能 会 导致 内 存 泄漏 、 内 存 双重 释放 (double-free) 、 非 法 访问 已 经 释放 的 内 存 、 
写 入 已 释放 或 未 分 配 的 内 存 区 域 等 问题 。 


看 下 面 一 段 示例 代码 : 


#define MIN MEM SIZE 10 
int CompareMemorySize (char *p, size t size) 
{ 
if (size < MIN MEM SIZE) 
{ 
free (Bp) 3 
P = NULL; 
return -1; 


return 0; 


} 
void AllocMemory (size t size) 
{ 
char *p = (char *) malloc (size) ; 
if (pb = NULL) 
{ 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 


Ef 
if (CompareMemorySize (p, size) 一 -1) 
{ 
free (P) ; 
P = NULL; 
return; 
} 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 


free (p) ; 
p = NULL; 


在 上 面 的 示例 代码 中 ，p 的 内 存 是 在 AllocMemory 函 数 中 进行 分 配 的 ， 然 后 再 将 它 通过 语句 “CompareMemorySize (p，size) ” 传 给 CompareMemorySize 函 数 。 在 CompareMemorySize 函 数 
中 ， 首 先 通过 语句 “if (size<MIN_MEM_SIZE) ”检查 p 所 分 配 的 内 存 长 度 ， 如 果 内 存 长 度 小 于 最 小 值 (MIN_MEM_SIZE) ， 则 释放 p。 


然后 ， 再 将 CompareMemorySize 函 数 的 返回 值 “-1” 返 回 给 调用 者 AllocMemory 函 数 。 在 AllocMemory 函 数 中 执行 语句 “if (CompareMemorySize (p，size) ==-1) ”条 件 成 立 ， 再 次 释放 p。 


很 显然 ， 这 样 不 仅 违背 了 “内 存 资 源 的 分 配 与 释放 应 该 限定 在 同一 模块 或 者 同一 抽象 层 内 进行 ”的 原则 ， 同 时 导致 了 内 存 的 双重 释放 。 因 此 ， 需 要 对 代码 做 如 下 修改 : 


#define MIN MEM SIZE 10 
int CompareMemorySize (size t size) 
{ 

if (size < MIN MEM SIZE) 

‘ 


E 


return 0; 


return -1; 


void AllocMemory (size t size) 
‘ 
char *p = (char *) malloc (size) ; 
if (p 一 NULL) 
{ 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0OEBPS/Text/...*/ 


if (CompareMemorySize (size) == -1) 
free (P) ; 
p = NULL; 
return; 
i 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...*/ 


free (P) ; 
P = NULL; 


现在 ,函数 CompareMemorySize 与 AllocMemory 的 职责 很 清楚 了 。 其 中 ，Compare-MemorySize 函 数 只 负责 检查 内 存 分 配 的 长 度 ， 而 内 存 的 分 配 与 释放 都 放 在 AllocMemory 函 数 内 进行 。 这 样 不 仅 
不 会 导致 内 存 的 双重 释放 ， 而 且 完 全 遵从 “内 存 资源 的 分 配 与 释放 应 该 限定 在 同一 模块 或 者 同一 抽象 层 内 进行 ”原则 。 


建议 104-3: 必须 对 内 存 分 配 函 数 的 返回 指针 进行 强制 类 型 转换 


在 C 语 言 中 ，“void” 被 称 为 “无 类 型 ”， 而 “void*” 则 被 称 为 “无 类 型 指针 ”。 之 所 以 称 “void*” 为 “无 类 型 指针 ”， 是 因为 它 可 以 指向 任何 数据 类 型 
为 “void*”， 而 “void*” 也 可 以 转换 为 任何 类 型 “T*”。 


因此 ， 对 于 任何 类 型 “T*” 都 可 以 转换 


也 正 是 因为 “void” 的 这 个 特征 ， 它 常 被 用 在 如 下 两 个 方面 : 


“ 对 函数 返回 的 限定 ， 即 如 果 函 数 没有 返回 值 ， 那 么 应 将 其 声明 为 void 类 型 。 


“ 对 函数 参数 的 限定 ， 即 如 果 函 数 无 参数 ， 那 么 声明 函数 参数 为 void。 


当然 ， 内 存 管理 函数 也 不 例外 ， 如 malloc、realloc、calloc、alloca 与 aligned_alloc 函 数 的 返回 都 是 “void*” 类型。 但 需要 特别 注意 的 是 ， 在 使 用 这 些 内 存 管理 函数 进行 内 存 分 配 时 ， 必 须 将 返回 类 
型 “void*” 强制 转换 为 指向 被 分 配 类 型 的 指针 。 如 下 面 的 代码 所 示 : 


他 


char xp = (char *) malloc (10 * sizeof (char) ) ; 


当然 ， 为 了 能 够 简单 调用 ， 也 可 以 将 malloc 函 数 使 用 define 定 义 成 如 下 形式 : 


#define MALLOC (type) ( (type *) malloc (sizeof (type) ) ) 
dd 
#define MALLOC (number, type) ( (type *) malloc ( (number) * sizeof (type) ) ) 


现在 , 调用 就 简单 多 了 ， 如 下 面 的 代码 所 示 : 


char *p = MALLOC (char) ; 
和 
char *p = MALLOC (10, char) ; 


下 面 的 宏 为 大 家 提供 了 更 多 方便 : 


/*malloc*/ 

#define MALLOC ARRAY (number, type) \( (type *) malloc ( (number) * sizeof (type) ) ) 

#define MALLOC FLEX (stype, number, etype) \( (stype *) malloc (sizeof (stype) \ 

+ (number) * sizeof (etype) ) ) 

J*calloc*/ 

#define CALLOC (number, type) \( (type *) calloc (number, sizeof (type) ) ) 

/*realloc*/ 

#define REALLOC ARRAY (pointer, number, type) \( (type *) realloc (pointer, (number) * sizeof (type) ) ) 
#define REALLOC FLEX (pointer, stype, number, etype) \( (stype *) realloc (pointer, sizeof (stype) \ 
+ (number) * sizeof (etype) ) ) 


建议 104-4: 确保 指针 指向 一 块 合法 的 内 存 


在 C 语 言 中 ， 只 要 是 指针 变量 ， 那 么 在 使 用 它 之 前 必须 确保 该 指针 变量 的 值 是 一 个 有 效 的 值 ， 它 能 够 指向 一 块 合法 的 内 存 ， 并 从 根本 上 避免 未 分 配 内 存 或 者 内 存 分 配 不 足 的 情况 发 生 。 


看 下 面 一 段 示例 代码 : 


struct phonelist 


int number; 
char *name; 
Char *tel; 

}1list, *plist; 

int main (void) 

{ 
list.number = 1; 
strcpy (list.name, "Abby") ; 
streopy (list. tel, *1351111111L")} ; 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 
return 0; 


对 于 上 面 的 代码 片段 ， 在 定义 结构 体 变量 list 时 ， 并 未 给 结构 体 phonelist 内 部 的 指针 变量 成 员 “char*rname” 与 “char*tel” 分 配 内 存 。 这 时 候 的 指针 变量 成 员 “chartrname” 与 “char*tel” 并 没有 指 
向 一 个 合法 的 地 址 ， 从 而 导致 其 内 部 存储 的 将 是 一 些 未 知 的 乱码 。 


因此 ， 在 调用 strcpy 函 数 时 ， 如 “strcpy (list.name,“"Abby") ”语句 会 将 字符 串 "Abby "向 未 知 的 乱码 所 指 的 内 存 上 拷贝 ， 而 这 块 内 存 name 指 针 根本 就 无 权 访 问 ， 从 而 导致 程序 出 错 。 


既然 没有 给 指针 变量 成 员 “char*tname” 与 “char*tel” 分 配 内 存 ， 那 么 解决 的 办 法 就 是 为 指针 变量 成 员 分 配 内 存 ， 使 其 指向 一 个 合法 的 地 址 ， 如 下 面 的 示例 代码 所 示 : 


list.name = (char*) malloc (20*sizeof (char) ) ; 
strcpy (list.name, "Abby") ; 
list.tel = (char*) malloc (20*sizeof (char) ) ; 


Strop (list tely "L135TIILITILNY 


除 此 之 外 ， 下 面 的 错误 也 是 大 家 经 常 容易 忽视 的 : 


struct phonelist 


int number; 
char *name; 
Char *tel; 
Jist, *plist; 
int main (void) 
{ 
plist = (struct phonelist*) malloc (sizeof (struct phonelist) ) ; 
if (plist ! = NULL 
{ 
plist->number = 1; 
strcpy (plist->name, "Abby") ; 
stropy (plist->tels "L351111111") 六 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/...*/ 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 
free (plist) ; 

plist = NULL; 

return 0; 


不 难 发 现 ， 上 面 的 代码 片段 虽然 为 结构 体 指针 变量 plist 分 配 了 内 存 ， 但 是 仍旧 没有 给 结构 体 指针 变量 成 员 “char*+name” 与 “char*tel” 分 配 内 存 ， 从 而 导致 结构 体 指针 变量 成 
员 “char*name” 与 “char*tel” 并 没有 指向 一 个 合法 的 地 址 。 因 此 ， 应 该 做 如 下 修改 : 


plist->name = (char*) malloc (20*sizeof (char) ) ; 
strcpy (plist->name, "Rbby") ; 

plist->tel = (char*) malloc (20*sizeof (char) ) ; 
strcpy (plist->tel, "13511111111") ; 


由 此 可 见 ， 对 结构 体 来 说， 仅仅 是 为 结构 体 指针 变量 分 配 内 存 还 是 不 够 的 ， 还 必须 为 结构 体 成 员 中 的 所 有 指针 变量 分 配 足 够 的 内 存 。 


建议 104-5: 确保 为 对 象 分 配 足够 的 内 存 空 间 


对 于 上 面 的 结构 体 指针 变量 plist 的 内 存 分 配 语句 : 


plist = (struct phonelist*) malloc (sizeof (struct phonelist) ) 


如 果 不 小 心 误 写成 如 下 形式 会 怎么 样 呢 ? 


plist = (struct phonelist*) malloc (sizeof (struct phonelist*) ) 


虽然 这 里 只 是 简单 地 将 “sizeof (struct phonelist) ” 误 写成 了 “sizeof (struct phonelist*) ”， 但 将 会 因为 结构 体 指针 变量 plist 内 存 分 配 不 足 而 导致 程序 的 内 存 错误 发 生 。 类 似 的 示例 还 有 许多 ， 如 
下 面 的 代码 所 示 : 


由 


void f (size t len) 
{ 
long *p; 
if (len 一 0 || len > SIZE MAX / sizeof (long) ) 


/* 江 出 处 理 */ 


= (long *) malloc (len * sizeof (int) ) ; 
f (p= NULL) 


HO 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...*/ 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/...*/ 
free (p) ; 
P = NULL; 


在 上 面 的 示例 代码 中 ， 内 存 分 配 语句 “p= (long*) malloc (len*sizeof (int) ) ”使 用 了 “sizeof (int) ”来 计算 内 存 的 大 小 ， 而 不 是 sizeof (long) ， 这 显然 是 不 对 的 ， 应 该 修改 成 如 下 形式 : 


void f (size t len) 
{ 
long *p; 
if (len = 0 || len > SIZE MAX / sizeof (long) ) 


/* 浇 出 处 理 */ 
= (long *) malloc (len * sizeof (long) ) ; 
if (p 一 NULL) 
! /*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...*/ 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...*/ 


free (P) ; 
p = NULL; 


当然 ， 也 可 以 用 “sizeof (*p) ”， 如 下 面 的 示例 代码 所 示 : 


void f (size t len) 
{ 
long *p; 
if (len = 0 || len > SIZE MAX / sizeof (*p) ) 


/* 江 出 处 理 */ 


= (long *) malloc (len * sizeof (*p) ) ; 
f (p= NULL) 


HO 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/...*/ 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 
free (P) ; 
P = NULL; 


除 此 之 外 ， 对 于 数组 对 象 尤其 要 注意 内 存 分 配 的 问题 ， 如 下 面 的 代码 所 示 : 


#define ARRAY SIZE 10 

struct datalist 

{ 
size t number; 
int qata[]; 

}; 

int main (void) 

{ 
struct datalist list; 
list.number = ARRAY SIZE; 
for (size t i = 0; i < ARRAY SIZE; ++i) 
{ 


} 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 
return 0; 


list.data[lil] = 0; 


对 于 上 面 的 示例 ， 当 一 个 结构 体 中 包含 数组 成 员 时 ， 其 数组 成 员 的 大 小 必须 添加 到 结构 体 的 大 小 中 。 因 此 ， 上 面 示例 的 正确 内 存 分 配方 法 应 该 按照 如 下 方式 进行 : 


#define ARRAY SIZE 10 
struct datalist 


size t number; 
int qata[]; 


int main (void) 


struct datalist *plist; 
plist = (struct datalist *) malloc ( 
sizeof (struct datalist) 
+ sizeof (int) * ARRAY SIZE) ; 
if (plist 一 NULL) { 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 
} 
plist->number = ARRAY SIZE; 
for (size t i = 0; i < ARRAY SIZE; ++i) 
{ 
plist->data[il] = 0; 
} 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 
return 0; 


来 表示 对 象 要 存储 的 大 小 。 如 果 长 度 参数 不 正确 或 者 可 能 被 攻 
出 。 与 此 同时 ， 不 正确 的 长 度 参数 、 不 充分 的 范围 检查 、 整 数 溢出 或 截断 都 会 导致 分 配 长 度 不 足 的 缓冲 区 。 因 此 ， 一 定 要 确保 内 存 分 配 函 数 的 长 度 参 数 能 够 合法 地 分 配 


由 上 面 的 几 个 示例 代码 片段 可 见 ， 对 于 malloc、calloc、realloc 与 aligned _alloc 内 存 分 配 函 数 中 长 度 参数 的 大 小 ， 必 须 保证 有 足够 的 范 
击 者 所 操纵 ， 将 可 能 会 出 现 缓冲 区 溢 
足够 数量 的 内 存 。 


建议 104-6: 禁止 执行 零 长 度 的 内 存 分 配 


克 


根据 C99 规 定 ， 如 果 在 程序 中 试 | 
等 ) ， 从 而 导致 产生 不 可 预料 的 结果 。 


malloc、calloc 与 realloc 等 系列 内 存 分 配 函 数 分 配 长 度 为 0 的 内 存 ， 那 么 其 行为 | 


中 
| 
过 
性 
部 
耳 


体 编译 器 所 定义 的 (如 可 能 返回 一 个 null 指 针 ， 又 或 者 是 长 度 为 非 零 的 值 


因此 ， 为 了 保证 不 会 将 0 作为 长 度 参数 值 传 给 malloc、calloc 与 realloc 等 系列 内 存 分 配 函 数 ， 应 该 对 这 些 内 存 分 配 函 数 的 长 度 参 数 进 行 合 法 性 检查 ， 以 保证 它 的 合法 取 值 范围 。 


如 下 面 的 代码 所 示 : 


size t len; 
/* 初 始 化 Len 变量 */ 
if (len 一 0) 
/* 处 理 长 度 为 0 的 错误 */ 
int xp = (int *) malloc (len) ; 
if (p 一 NULD) 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...*/ 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...*/ 


建议 104-7: 避免 大 型 的 堆栈 分 配 


C99 标 准 引入 了 对 变 长 数组 的 支持 ， 如 果 变 长 数组 的 长 度 传 入 未 进行 任何 检查 和 处 理 ， 那 么 将 很 容易 被 攻击 者 用 来 实施 攻击 ， 如 常见 的 DoS 攻 击 。 


看 下 面 的 示例 代码 : 


int CopyFile (FILE *src, FILE *dst, size 七 bufsize) 
{ 


char buf [bufsizel]; 
while (fgets (buf, bufsize, src) ) 
{ 
if (fputs (buf, dst) == EOF) 
{ 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 
i 
} 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 
return 0; 


在 上 面 的 示例 代码 中 ， 数 组 “char buf[bufsize]” 的 长 度 将 根据 CopyFile 函 数 的 bufsize 参 数 来 决定 ， 这 显然 不 符合 要 求 的 。 对 于 这 种 情况 ， 可 以 通过 一 个 malloc 调 用 来 替换 掉 这 个 变 长 数组 。 与 此 同 
时 ， 如 果 malloc 函 数 内 存 分 配 失败 ， 还 可 以 对 返回 值 进行 检查 ， 从 而 防止 程序 异常 终止 等 情况 发 生 。 如 下 面 的 示例 代码 所 示 : 


int CopyFile (FILE *src, FILE *dst, size t bufsize) 
{ 
if (bufsize == 0) 
{ 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 


char *buf = (char *) malloc (bufsize) ; 
if (buf 一 NULL) 
{ 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/...*/ 


i 
while (fgets (buf, bufsize, src) ) 
{ 
if (fputs (buf, dst) == EOF) 
{ 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 
} 


/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 
free (buf) ; 

buf = NULL; 

return 0; 


建议 104-8: 避免 内 存 分 配 成 功 ， 但 并 未 初始 化 


在 通常 情况 下 ， 导 致 这 种 错误 的 主要 原因 有 两 个 : 


“ 没有 初始 化 的 观念 。 


: 误 以 为 内 存 的 默认 初 值 全 部 为 零 ， 从 而 导致 引用 初 值 错误 (如 数组 ) 。 


调用 函数 memset 来 将 其 初始 化 为 全 0。 如 下 面 的 示例 代码 所 示 : 


其 实 ， 内 存 的 默认 初 值 究竟 是 什么 并 没有 统一 的 标准 。 如 malloc 函 数 分 配 得 到 的 内 存 空间 就 是 未 初始 化 的 ， 而 它 所 分 配 的 内 存 空间 里 可 能 包含 出 乎 意料 的 值 。 因 此 ， 一 般 在 使 用 该 内 存 空间 时 ， 就 需要 


int * p = NULL; 
p= (int*) malloc (sizeof (int) ) ; 
if (P = NULL) 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...*/ 


/* 初 始 化 为 0*/ 
memset (p, 0, sizeof (int) ) ; 


对 于 realloc 函 数 ， 同 样 需要 使 用 memset 函 数 对 其 内 存 进行 初始 化 。 而 对 于 数组 ， 也 别 忘 了 赋 初 值 ， 即 便 是 赋 零 值 也 不 可 省 略 ， 千 万 不 要 嫌 麻 烦 。 


建议 105: 确保 安全 释放 内 存 


在 使 用 完 内 存 分 配 函 数 申请 的 内 存 空 间 后， 一 定 要 记得 及 时 释放 内 存 空间 ， 否 则 就 会 出 现 内 存 泄漏 等 错误 。 其 中 ， 内 存 释 放 函 数 free 的 原型 如 下 : 


void free ( void * ptr ) ; 


该 函数 用 于 释放 指针 ptr 所 指向 的 内 存 空 间 。 如 果 ptr 为 NULL， 或 者 指向 不 存在 的 内 存 块 ， 将 不 做 任何 操作 。 


建议 105-1: malloc 等 内 存 分 配 函 数 与 free 必 须 配对 使 用 


在 C 语 言 中 ， 程 序 中 malloc 等 内 存 分 配 函 数 的 使 


次 数 一 定 要 和 free 相 等 ， 并 一 一 配对 使 


。 绝 对 要 避免 “malloc 两 次 free 一 次 ”或 者 “malloc 一 次 free 两 次 ”等 情况 。 这 就 像 我 们 的 婚姻 制度 ， 必 须 


是 “一 夫 一 妻 制 ”， 不 能 够 “多 夫 一 妻 ” 或 者 “一 夫 多 妻 ”， 这 些 都 是 不 合法 的 ， 如 下 面 的 示例 代码 所 示 : 


#define MAX BUF SIZE 100 
int main (void) 


{ 
/* 内 存 释 放 标 志 */ 
int flag = 0; 


char * p= (char *) malloc (MAX BUF SIZE) ; 


if (p = NULL) 
{ 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 


i 
if (flag == 0) 
{ 


free (Bp) 3 
Ek 
free (P) ; 
return 0; 


在 上 面 示例 代码 中 ， 当 条 件 “if (flag==0) ”成 立时 ， 


的 示例 代码 所 示 : 


“free (p) ”将 被 执行 两 次 ， 从 而 导致 内 存 的 双重 释放 错误 。 因 此 ， 应 该 消除 这 种 双重 释放 潜在 的 风险 ， 保 证 动态 内 存 只 被 释放 一 次 ,如 下面 


#define MAX BUF SIZE 100 
int main (void) 


{ 
/* 内 存 释 放 标 志 */ 
int flag = 0; 


Char * p= (char *) malloc (MAX BUF SIZE) ~ 


if (p = NULL) 
{ 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...*/ 


if (flag == 0) 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 


} 
free (P) ; 


当然 ， 也 可 以 采用 下 面 的 方式 : 


#define MAX BUF SIZE 100 
int main (void) 


{ 
/* 内 存 释 放 标 志 */ 
int flag = 0; 


char * p= (char *) malloc (MAX BUF SIZE) ; 


if (p = NULL) 
‘ 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 


} 

if (flag == 0) 

{ 
free (P) ; 
P = NULL; 


} 

if (p ! = NULL) 

{ 
free (P) ; 
P = NULL; 


return 0; 


除 此 之 外 ， 对 于 内 存 释放 还 必须 保证 只 释放 动态 分 配 的 内 存 ， 即 不 能 
或 者 自 减 操作 ， 使 其 指向 动态 分 配 的 内 存 空 间 中 间 的 某 个 位 置 ， 然 后 直接 释放 ， 这 样 也 有 可 能 引起 未 知 的 错误 。 


建议 105-2: 在 free 之 后 必须 为 指针 赋 一 个 新 值 


在 使 


如 下 面 的 示例 代码 所 示 : 


free 来 释放 非 malloc、realloc、calloc 与 aligned_alloc 等 内 存 分 配 函 数 分 配 的 内 存 空间 。 与 此 同时 ， 也 不 要 将 指针 变量 进行 自 增 


指针 进行 动态 内 存 分 配 操作 时 ， 在 指针 p 被 free 释 放 之 后 ， 指 针 变量 本 身 并 没有 被 删除 。 如 果 这 时 候 没有 将 指针 p 置 为 NULL， 会 让 人 误 以 为 p 是 个 合法 的 指针 而 在 以 后 的 程序 中 错误 使 用 它 。 


#define MAX BUF SIZE 100 
int main (void) 
{ 
char * p = NULL; 
/* 内 存 申 请 */ 
p= (char *) malloc (MAX BUF SIZE) ; 
if (p = NULL) 
{ 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/...*/ 


i 
/* 内 存 初始 化 */ 
memset (p, '\0', MAX BUF SIZE) ; 
strcpy (p, "hello") ; 
/* 释 放 内 存 */ 
if (p ! = NULL) 
{ 
free (P) ; 
i 
if (p ! = NULL) 
{ 
/* 发 生 错 误 */ 
strcpy (p, "world") ; 
} 


return 0; 


在 上 面 的 示例 代码 中 ， 第 一 个 判断 语句 : 


/* 释 放 内 存 */ 
if (p ! = NULL) 
{ 

free (P) ; 


在 执行 第 二 个 判断 语句 时 : 


虽然 释放 了 指针 变量 p， 但 这 个 时 候 指 针 变 量 p 本 身 并 没有 被 删除 ， 其 保存 的 地 址 并 没有 改变 。 但 是 ， 此 时 p 虽 不 是 NULL 指 针 ， 但 它 却 不 指向 合法 的 内 存 块 ， 成 为 “ 野 指针 ”或 称 为 “悬垂 指针 ”。 接 下 来 ， 


if (p ! = NULL) 

{ 
/* 发 生 错 误 */ 
strcpy (p, "world") ; 


} 


条 件 “if (p! =NULL) ”成 立 ，“strcpy (p，"world") ”语句 将 被 继续 执行 ， 导 致 程序 出 错 。 


到 现 或 许 有 人 会 问 ，“free (p) ”到 底 释 放 了 什么 ? 


“free (p) ”释放 的 是 指针 变量 p 所 指向 的 内 存 ， 而 不 是 指针 变量 p 本 身 。 指 针 变 量 p 并 没有 被 释放 ， 仍 然 指向 原来 的 存储 空间 。 


其 实 , 指针 只 是 一 个 变量 ， 只 有 程序 结束 时 才 被 销毁 。 释 放 内 存 空 间 后 ， 原 来 指向 这 块 空间 的 指针 还 是 存在 的 ， 只 不 过 现在 指针 指向 的 这 块 内 存 是 不 合法 的 。 


此 ， 在 释放 内 存 后 ， 必 须 把 指针 指向 


NULL， 以 防止 指针 在 后 面 不 小 心 又 被 解 引 用 了 。 


如 下 面 的 示例 代码 所 示 : 


#define MAX BUF SIZE 100 
int main (void) 
{ 
char * p = NULL 
/* 内 存 申 请 */ 
p= (char *) malloc (MAX BUF SIZE) ; 
if (p 一 NULL) 
{ 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...*/ 


} 
/* 内 存 初始 化 */ 


memset (p, '\0', MAX BUF SIZE) ; 
strcpy (p, "hello") ; 
/* 释 放 内 存 */ 
if (p ! = NULL) 
{ 
free (P) ; 
/* 在 free 之 后 给 指针 存储 一 个 新 值 */ 
P = NULL; 
} 
if (p ! = NULL) 
t 
/* 发 生 错误 */ 
strcpy (p, "world") ; 
return 0; 


现在 ,通过 语句 “p=NULL” 给 指针 变量 p 赋 予 一 个 NULL 值 之 后 ， 第 二 个 条 件 语 句 “if (p! =NULL) ”将 不 成 立 , 语句 “strcpy (p,，"world") ”也 将 不 会 被 执行 。 所 以 一 定 要 记 住 一 条 : free (p) 


完 之 后 ,一 定 要 将 指针 变量 p 置 为 NULL。 


建议 106: 避免 内 存 越界 


内 存 越界 是 软件 系统 主要 错误 之 一 ， 其 后 果 往 往 不 可 预料 且 非 常 严 


om 


。 更 麻烦 的 是 ， 它 出 现 的 时 机 是 随机 的 ， 表 现 出 来 的 症状 是 随机 的 ， 而 且 造 成 的 后 果 也 是 随机 的 ， 这 会 使 程序 员 很 难 找 出 这 些 Bug 


的 现象 和 本 质 之 间 的 联系 ， 从 而 给 Bug 的 定位 带 来 极 大 的 困难 。 一 般 情况 下 ， 内 存 越界 访问 可 分 如 下 两 种 : 


“ 读 越界 ， 即 读 了 不 属于 自己 的 数据 。 如 果 所 读 的 内 存 地 址 是 无 效 的 ， 程 序 立刻 崩溃 ; 如 果 所 读 内 存 地 址 是 有 效 的 ， 在 读 的 时 候 不 会 马上 出 现 问 题 ,但 由 于 读 到 的 数据 是 随机 的 ， 因 此 它 会 造成 不 可 预 
料 的 后 果 。 


“ 写 越界 ， 又 称 为 缓冲 区 溢出 ， 所 写 入 的 数据 对 别 的 程序 来 说 是 随机 的 ， 它 也 会 造成 不 可 预料 的 后 果 。 


建议 106-1: 避免 数组 越界 


数组 越界 错误 主要 包括 数组 下 标 取 值 越界 和 指向 数组 的 指针 的 指向 范围 越界 。 


数组 下 标 取 值 越界 主要 是 指 访问 数组 时 ， 下 标的 取 值 不 在 已 定义 好 的 数组 的 取 值 范围 ， 而 访问 的 是 无 法 获取 的 内 存 地 址 。 例 如 int a[10]， 此 数组 a 的 下 标 取 值 范围 是 [0，9]。 若 取 值 不 在 这 个 范围 ， 就 出 
现 越界 错误 。 


指向 数组 的 指针 的 指向 范围 越界 表示 当 定 义 的 指针 p 若 指向 了 数组 的 首 地 址 时 ( 即 p=a) ， 若 对 其 不 断 进行 操作 p++， 则 最 后 会 导致 指针 p 指 向 大 于 该 数组 范围 的 上 界 ， 从 而 使 程序 访问 了 数组 以 外 的 存 
储 单元 ， 造 成 数组 越界 。 


如 下 面 的 示例 代码 所 示 : 


#define MAX BUF SIZE 10 
int main (void) 
{ 
int i = 0; 
int a[MAX BUF SIZE] = { 0 }; 
for (i=0; 3 <= MAX BUF SIZE; it+) 
{ 
a 
printf ("%d", al[lil) ; 
i 


return 0; 


上 面 的 示例 代码 就 是 一 个 典型 的 数组 下 标 取 值 越界 。 其 中 ， 因 为 MAX_BUF_SIZE 被 定义 为 10， 所 以 int a[MAX_BUF_SIZE] 定 义 了 10 个 元 素 大 小 的 数组 。 由 于 C 语 言 中 数组 的 索引 是 从 0 开始 的 ， 所 以 只 能 
访问 af[0] 到 a[9]。 当 “i=10” 时 ， 访 问 a[10] 就 造成 越界 错误 。 因 此 ， 应 该 修改 成 如 下 形式 : 


#define MAX BUF SIZE 10 
int main (void) 
{ 
int i = 0; 
int a[MAX BUF SIZE] = { 0 }; 
for (i =0; 3 < MAX BUF SIZE; i++) 
{ 
a[il = i; 
printf ("%d", al[lil]) ; 


return 0; 


除 此 之 外 ， 在 设置 缓冲 区 大 小 时 ， 要 考虑 各 种 应 用 场合 ， 特 别 是 考虑 到 函数 参数 的 边界 条 件 ， 按 最 大 的 可 能 分 配 空间 ， 能 够 利用 程序 计算 的 ， 尽 量 自动 计算 。 


建议 106-2: 避免 sprintf、vsprintf、strcpy、strcat 与 gets 越 界 


前 面 已 经 阐述 过 ，(C 语 言 提供 的 字符 串 库 函 数 sprintf、vsprintf、strcpy、strcat 与 gets 等 非常 危险 ， 很 容易 导致 内 存 越界 ， 应 该 尽量 使 用 安全 的 字符 串 库 函 数 snprintf、strncpy、strncat 与 fgets 来 蔡 换 
它们 。 


如 下 面 的 示例 代码 所 示 : 


char buf[250] ; 
sprintf (buf, "“*** File: %s Line : %d 大 大 大 wm _FILE ; _LINE ); 


其 中 ，“_FILE_“” 在 预 编译 时 ， 被 编译 时 的 目录 名 和 源 文件 名 代替 ， 但 目录 和 文件 名 的 长 度 可 变 ， 很 可 能 超出 250 字 节 ， 从 而 导致 内 存 越界 。 因 此 ， 应 该 使 用 snprintf 来 替换 sprintf 函 数 ， 指 定 缓冲 
的 大 小 ， 确 保 内 存 不 会 越界 。 如 下 面 的 示例 代码 所 示 : 


M4 


snprintf (buf, MAX BUF SIZE ~ 1， “*** File: %s Line : %d ****", _ FILE , _ LINE ); 


buf [MAX BUF SIZE - i] = '\0'; 


建议 106-3: 避免 memcpy 与 memset 函 数 长 度 越界 


对 于 memcpy 与 memset 函 数 ， 在 使 用 的 时 候 一 定 要 确保 长 度 不 要 越界 。 如 下 面 的 示例 代码 所 示 : 


char a[80]; 

char b[100]; 

/*a 的 长 度 小 于 b 的 长 度 ， 发 生 越界 */ 
memcpy (a, b, sizeof (b) ) ; 


很 明显 ，b 的 长 度 是 100， 而 a 长 度 是 80， 执 行 语句 “memcpy (a，b，sizeof (b) ) ”时 ， 由 于 a 的 长 度 小 于 b 的 长 度 ， 所 以 将 导致 程序 内 存 越界 。 因 此 ， 必 须 确保 a 的 长 度 大 于 b 的 长 度 ， 又 或 者 是 a 和 
b 的 长 度 保持 一 致 。 由 于 是 字符 串 拷贝 ， 因 此 还 可 以 改 用 strncpy 函 数 。 如 下 面 的 示例 代码 所 示 : 


Char a[MAX BUF SIZE]; 

char b[MAX BUF SIZE]; 

strncpy (a, b, MAX BUF SIZE) ; 
a[MAX BUF SIZE - 1] = '\0'; 


建议 106-4: 避免 忽略 字符 串 最 后 的 \0 字符 而 导致 的 越界 


在 C 语 言 中 ， 字 符 串 是 一 个 以 \0 字符 结尾 的 字符 数组 。 但 是 ， 当 使 


如 下 面 的 示例 代码 所 示 : 


strlen 库 函数 来 获取 字符 串 的 长 度 时 ， 其 长 度 值 并 不 包含 \0 字符 。 这 就 导致 我 们 经 常 因 为 不 小 心 而 忽略 了 字符 串 


最 后 的 \0 字符 。 


int main (void) 


{ 


Char * str = "abcdefghijk"; 


char c[20]; 
memcpy (c, str, strlen (str) ) ; 
Printf ("%s: $d\n", c, strlen (c) ) ; 
return 0; 
} 
在 上 面 的 代码 中 ，“strlen (str) ”获取 的 是 str 真 实 的 字符 串 长 度 ， 不 包括 最 后 的 \0 字符 。 因 此 ， 当 执行 “memcpy (c，str，strlen (str) ) ”语句 时 ， 并 没有 将 str 整 个 字符 串 复制 到 c 中 。 再 加 上 


这 里 的 字符 数组 c 并 没有 进行 初始 化 ， 所 以 最 后 执行 “printf ("%s: %d\n", 


文件 (E) 编辑 (E) 坦 看 (V) 摸索 (3) 


ET ee EE A 


[mawei@lamp cj]$ ./a. out 


abcdefghijpOboTO00:28 
[mawei@lamp c]$ 加 


c, strlen (c) ) “ 


语句 时 ， 其 运行 


结果 将 出 平 意 料 ， 如 图 


maweiclamp: 二 /程序 设计 六 
党 商人 于 助 出) 


12-6 所 示 。 


但 如 果 在 “strlen (str)“" 


int main (void) 


{ 


char * str = "abcdefghijk"; 
char SL20]; 


memcpy (c, 
printf ("%s: %d\n", c, 


str, strlen (str) +1) ; 


strlen (c) ) ; 


return 0; 


获取 的 str 真 实 的 字符 


图 12-6 ”执行 “memcpy (c，stt，sttlen (str) ) ”的 运行 结果 
长 度 后 再 加 上 1 ( 即 包括 最 后 的 \0 字符 ) ， 情 况 就 不 一 样 了 ， 如 下 面 的 示例 代码 所 示 : 


运行 结果 如 图 12-7 所 示 。 


文件 (E) 编辑 (E) 查看 (V) 措 索 (5) 


UEDASTIGEUETU HE 本 坟 汪 全 La 


[mawei@lamp cl$ ./a.out 
abcdefghijk:11 
[mawei@lamp c]$ | 


终 庙 (T) 帮助 (H) 


除 此 之 外 ， 在 使 


strncpy 等 安全 函数 时 ， 当 复制 字符 串 到 达 指 定 


符 ; 也 可 以 在 调 


建议 107: 避免 内 存 泄漏 


大 家 都 知道 ， 在 堆 上 分 配 的 内 存 ， 如 果 不 再 使 


strncpy 函 数 后 ， 紧 接着 赋 \0' 字 符 。 


12-7 执行 “memcpy (c，str，sttlen (str) +1) 


的 长 度 时 ， 不 会 在 目标 字符 串 结尾 添加 \0 字符 ， 必 须 手 工 进行 添加 \0 字符 。 当 然 ， 


存 就 不 能 被 重 


内 存 泄漏 几乎 是 很 难 避 免 的 ， 不 管 是 老手 还 是 新 手 ， 都 存在 这 个 问题 ， 甚 至 Windows 与 Linux 这 类 系统 软件 也 或 多 或 少 存在 着 内 存 泄漏 。 
。 一 两 处 内 存 泄漏 通常 并 不 致 于 让 程序 崩溃 ， 也 不 
但 是 ， 量 变 会 导致 质变 ， 


中 | 
man 


器 


在 常见 情况 下 ， 内 存 泄漏 的 主要 可 见 症状 就 是 罪魁 进程 的 速度 减 慢 。 


了 ， 这 就 造成 了 内 存 泄漏 。 


并 不 被 引 


， 但 它 仍然 可 能 存在 于 页 面 中 (内容 自然 是 垃圾 ) ， 


下 面 展 示 了 一 些 导致 内 存 泄漏 的 常见 场景 。 


(1) 指针 重新 赋值 


了 ， 就 应 该 及 时 释放 ， 以 便 后 面 其 


他 地 方 可 以 


。 而 在 C 语 言 中 ， 内 存 管理 器 不 会 自动 回收 不 再 使 


”的 运行 结果 


可 以 在 申请 内 存 时 ， 


将 最 后 一 个 字 节 置 为 \0' 字 


的 内 存 。 如 果 忘 了 释放 不 再 使 


的 内 存 ， 


这 些 内 


原因 是 体积 大 的 进程 更 有 可 能 被 系统 换 出 ， 
这 样 就 增加 了 进程 的 工作 页 数量 ， 降 低 了 性 能 。 


会 带 来 逻辑 上 的 错误 ， 而 且 在 进程 退出 时 ， 系 统 会 自动 释放 所 有 与 该 进程 相关 的 内 存 (共享 内 存 除外 ) ， 
一 旦 内 存 泄漏 过 多 以 致 耗 尽 内 存 ， 后 续 内 存 分 配 将 会 失败 ， 程 序 就 可 能 


因此 而 崩溃 。 


让 别 的 进程 运行 ， 


也 许 对 一 般 的 应 用 软件 来 说 ， 这 个 问题 似乎 不 是 那么 突出 与 严 


所 以 内 存 泄漏 的 后 果 相 对 来 说 还 是 比较 温和 


而 且 大 的 进程 在 换 进 换 出 时 花费 的 时 间 也 更 多 。 即 使 泄漏 的 内 存 本 身 


看 下 面 一 段 示例 代码 : 


char * p= (char *) malloc (10) ; 
char * np = (char *) malloc (10) ; 


其 中 ， 指 针 变量 p 和 np 分 别 被 分 配 了 10 个 字 节 的 内 存 ， 它 们 各 自 的 内 存 如 图 12-8 所 示 。 
国 硬 本 本 加 国 硬 本 故国 


np 


图 12-8 pb 和 np 赋值 前 的 内 存 


如 果 程序 需要 执行 如 下 赋值 语句 : 


np; 


这 时 候 ， 指 针 变量 p 被 np 指针 重新 赋值 ， 其 结果 是 p 以 前 所 指向 的 内 存 位 置 变 成 了 孤立 的 内 存 ， 如 图 12-9 所 示 。 它 无 法 释放 ， 因 为 没有 指向 该 位 置 的 引用 ， 从 而 导致 10 字 节 的 内 存 泄漏 。 


有 op 


p 


np 


图 12-9 pb 和 np 赋值 后 的 内 存 


因此 ， 在 对 指针 赋值 前 ， 一 定 确保 内 存 位 置 不 会 变 为 孤立 的 。 


(2) 错误 的 内 存 释放 


假设 有 一 个 指针 变量 p， 它 指向 一 个 10 字 节 的 内 存 位 置 。 该 内 存 位 置 的 第 三 个 字 节 又 指向 某 个 动态 分 配 的 10 字 节 的 内 存 位 置 ， 如 图 12-10 所 示 。 


BE 


np 


12-10 bp 所 指向 的 内 存 


如 果 程序 需要 执行 如 下 赋值 语句 时 : 


free (P) ; 


很 显然 ， 如 果 通 过 调用 free 来 释放 指针 p， 则 np 指针 也 会 因此 而 变 得 无 效 。np 以 前 所 指向 的 内 存 位 置 也 无 法 释放 ， 因 为 已 经 没有 指向 该 位 置 的 指针 。 换 句 话说 ，np 所 指向 的 内 存 位 置 变 为 孤立 的 ， 从 而 
导致 内 存 泄漏 。 


因此 ， 每 当 释 放 结 构 化 的 元 素 ， 而 该 元 素 又 包含 指向 动态 分 配 的 内 存 位 置 的 指针 时 ， 应 首先 遍历 子 内 存 位 置 (如 本 示例 中 的 np) ， 并 从 那里 开始 释放 ， 然 后 再 遍历 回 父 节点 ， 如 下 面 的 代码 所 示 : 


free (p->np) ; 
free (P) ; 


(3) 返回 值 的 不 正确 处 理 


有 时 候 ， 某 些 函数 会 返回 对 动态 分 配 的 内 存 的 引用 ， 如 下 面 的 示例 代码 所 示 : 


char *f () 


{ 


return (char *) malloc (10) ; 


} 
void fl () 
{ 

EE 
} 


很 明显 ， 函 数 f1 中 对 {函数 的 调用 并 未 处 理 该 内 存 位置 的 返回 地 址 ， 


结果 将 导致 {函数 所 分 配 的 10 个 字 节 的 块 丢失 ， 并 导致 内 存 泄 漏 。 


(4) 在 内 存 分 配 后 忘记 使 用 free 进 行 释放 


最 后 ， 要 避免 这 些 内 存 相关 的 问题 导致 的 内 存 越界 与 内 存 遗 漏 等 错误 ， 可 以 参考 如 下 几 点 进行 : 


“ 确保 没有 在 访问 空 指针 。 


“ 每 个 内 存 分 配 函 数 都 应 该 有 一 个 free 函 数 与 之 对 应 ，alloca 函 数 除外 。 


' 每 次 分 配 内 存 之 后 都 应 该 及 时 进行 初始 化 ， 可 以 结合 memset 吕 数 进 行 初始 化 ，calloc 函 数 除 外 。 


“ 每 当 向 指针 写 入 值 时 ， 


都 要 确保 对 可 用 字 节 数 和 所 写 入 的 字 节 数 进行 交叉 核对 。 


: 在 对 指针 赋值 前 ， 一 定 要 确保 没有 内 存 位 置 会 变 为 孤立 的 。 


“ 每 当 释 放 结构 化 的 元 素 〈 而 该 元 素 又 包含 指向 动态 分 配 的 内 存 位 置 的 指针 ) 时 ， 都 应 先 遍 历 子 内 存 位 置 并 从 那里 开始 释放 ， 然 后 再 遍历 回 父 节点 。 


“ 始终 正确 处 理 返 回 动态 分 配 的 内 存 引 用 的 函数 返回 值 。 


建议 108: 避免 calloc 参 数 相 乘 的 值 超 过 size_t 表 示 的 学 围 


中 ， 


在 一 般 情 况 下 ，calloc 卫 


SIZE_MAX 是 标准 C 库 定义 的 一 个 宏 ， 它 表示 size _t 的 最 大 值 。 


因此 ， 必 须 确 保 calloc 函 


long *buf; 
Size 七 num; 
if (num > SIZE MAX / 


数 分 配 的 元 素数 量 (num) 与 每 个 内 存单 元 的 大 小 (size) 相 乘 的 结果 在 SIZE_MAX 范 围 之 内 ， 如 下 面 的 示例 代码 所 示 : 


sizeof (long) ) 


/* 如 果 超 出 了 SIZE_MAX 范 围 ， 进 行 错误 处 理 */ 


} 

buf = (long *) calloc 
if (buf == NULL) 

{ 

} 


(num, sizeof (long) ) ; 


数 “void*calloc (size t num，size_t size) ”通过 参数 num 乘 以 size 来 决定 需要 分 配 多 少 内 存 。 值 得 注意 的 是 ， 可 分 配 内 存 的 最 大 数量 需要 限制 在 小 于 SIZE_MAX 的 值 内 。 其 


部 


信号 (signal) 是 Linux 编 程 中 非常 重要 的 组 成 部 分 ， 全 称 为 软 中 断 信 和 号， 也 可 以 简称 为 软 中 断 (在 软件 层次 上 是 对 中 断 机 制 的 一 种 模拟 ) ， 其 主要 作用 就 是 
间 通 信 机 制 中 唯一 的 异步 通信 机 制 ， 一 个 进程 不 必 通 过 任何 操作 来 等 待 信号 的 到 达 ， 事 实 上 ， 进 程 也 不 知道 信号 到 底 什么 时 候 到 达 。 进 程 之 间 可 以 互相 通过 系统 调 
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来 通知 进程 发 生 了 异步 事件 。 信 号 是 进程 


件 而 给 进程 发 送信 号 ， 通 知 进程 发 生 了 某 个 事件 。 


在 通常 情况 下 ， 进 程 在 接收 到 信号 之 后 ， 处 理 方式 有 如 下 3 种 : 


“ 忽略 信号 : 即 进程 可 以 通过 代码 显 式 忽 略 某 个 信号 ， 对 该 信号 不 做 任何 处 理 ， 就 像 从 未 发 生 过 一 样 ， 如 “signal (SIGINT，SIGDEF) ”。 


kill 发 送 软 中 断 信 号 ， 内 核 也 可 以 因 


为 内 


“ 接收 默认 处 理 : 即 对 该 信号 的 处 理 保留 系统 的 默认 值 。 通 常 ， 接 收 默认 处 理 的 进程 会 导致 进程 本 身 消亡 。 例 如 ， 连 接 到 终端 的 进程 ， 当 用 户 按 下 “Ctd+C”， 将 导致 内 核 向 进程 发 送 一 个 SIGINT 信 
号 ， 如 果 进 程 不 对 该 信号 做 特殊 处 理 ， 系 统 将 采用 默认 的 方式 处 理 该 信号 ， 即 终止 进程 的 执行 。 


“ 捕捉 信号 并 处 理 : 类 似 中 断 的 处 理 程序 ， 进 程 可 以 事先 注册 信号 处 理 函 数 ， 当 接收 到 信号 时 ， 由 信号 处 理 函 数 自动 捕捉 并 且 处 理 信号 。 


在 标准 C 库 函数 中 ， 文 件 signal.h 是 库 中 的 信号 处 理 部 分 ， 其 中 定义 了 程序 执行 时 如 何 处 理 不 同 的 信号 。 


建议 109: 理解 信号 


简单 地 讲 ， 信 号 事件 的 发 生 主 要 来 源 于 如 下 两 个 方面 : 


“ 硬件 来 源 : 如 按 下 了 键盘 或 者 其 他 硬件 故障 等 。 


: 软件 来 源 : 如 在 Linux 中 用 于 发 送信 号 的 函数 (如 raise、kill、killpg、pthread_kill、tgkil 与 sigqueue 函 数 ) ， 还 包括 一 些 非法 运算 等 操作 。 


综合 后 可 以 归纳 为 如 下 几 个 方面 : 


“ 与 进程 终止 相关 的 信号 : 如 当 进 程 退出 或 者 子 进程 终止 时 ， 发 出 这 类 信号 。 


“ 与 进程 例外 事件 相关 的 信号 : 如 进程 越界 或 企图 写 一 个 只 读 的 内 存 区 域 ( 如 程序 正文 区 ) ， 又 或 者 是 执行 一 个 特权 指令 及 其 他 各 种 硬件 错误 。 


: 与 在 系统 调用 期 间 遇 到 不 可 恢复 条 件 相关 的 信号 : 如 执行 系统 调用 exec 时 ， 原 有 资源 已 经 释放 ， 而 目前 系统 资源 又 已 经 耗 尽 。 
“ 与 执行 系统 调用 时 遇 到 非 预测 错误 条 件 相关 的 信号 : 如 执行 一 个 并 不 存在 的 系统 调用 。 

“ 在 用 户 态 下 的 进程 发 出 的 信号 : 如 进程 调用 系统 调用 kil 向 其 他 进程 发 送信 和 号。 

:与 终端 交互 相关 的 信号 : 如 用 户 关闭 一 个 终端 ， 或 者 按 下 break 键 等 情况 。 


* 跟踪 进程 执行 的 信号 。 


一 般 情 况 下 ， 信 号 定义 在 系统 头 文件 signal.h 中 ， 每 一 个 信号 都 用 一 个 整 型 常量 宏 表示 ， 以 SIG 开 头 ， 如 SIGCHLD、SIGINT 等 。 在 标准 C 语 言 中 ， 在 signal.h 头 文件 中 定义 了 6 个 信号 ， 如 表 13-1 所 示 。 


表 13-1 标准 C 定 义 的 6 个 信号 


信 号 描 述 

SIGABRT 异常 中 止 

SIGFPE 浮 点 异常 

SIGILL 无 效 指令 

SIGINT 交互 的 用 户 按键 请 求 ， 默 认 情 况 下 ， 这 会 导致 进程 终止 
SIGSEGV 无 效 内 存 访问 

SIGTERM 程序 的 中 止 请 求 


除 此 之 外 ， 针 对 不 同类 型 的 操作 系统 ， 还 定义 了 许多 其 他 不 同 的 信和 号， 这 主要 依赖 于 具体 实现 。 在 Linux 系 统 中 ， 可 以 通过 “kill-|” 指 令 来 获取 所 支持 的 信和 号 列表 ， 如 图 13-1 所 示 。 


SIGHUP 
SIGABRT 
SIGSEGV 
SIGSTKFLT 
Sy | 
SIGVIALRM 


SIGINT 
SIGBUS 
SIGUSR2 
SIGCHLD 
SIGTTOU 
SIGPROF 


SIGQUIT 
SIGFPE 
SIGPIPE 
SIGCONT SIGSTOP 
SIGURG SIGXCPU 
SIGWINCH SIGIO 


SIGILL 
SIGKILL 
SIGALRM 


SIGTRAP 
SIGUSR1 
SIGTERM 
SIGTSTP 
SIGXFSZ 
SIGPWR 


SIGSYS 
SIGRIMIN+4 
SIGRIMIN+9 
SIGRTMIN+14 
SIGRTMAX—11 
SIGRTMAX-6 
SIGRTMAX—1 


SIGRIMIN 
SIGRIMIN+5 
SIGRIMIN+10 
SIGRTMIN+15 
SIGRTMAX—-10 
SIGRTMAX—S5 
SIGRTMAX 


当然 ， 还 可 以 通过 “man 7 signal” 指 令 来 查看 更 加 详细 的 说 明 ， 表 13-2~ 表 13-4| 


SIGRIMIN+1 
SIGRIMIN+6 
SIGRIMIN+11 
SIGRTMAX—14 
SIGRTMAX-9 
SIGRTMAX—4 


图 13-1 Linux 信 号 列表 


展示 了 Linux 内 核 所 支持 的 标准 信号 。 


表 13-2 POSIX.1-1990 标 准 中 的 信号 列表 


SIGRTIMIN+2 
SIGRIMIN+7 
SIGRIMIN+12 
SIGRTMAX-13 
SIGRTMAX-8 
SIGRTMAX—3 


SIGRTMIN+3 
SIGRTMIN+8 
SIGRTMIN+13 
SIGRTMAX-12 
SIGRTMAX—7 E 
SIGRTMAX—2 


六 。 号 描述 
SIGHUP 终端 控制 进程 结束 
SIGINT 在 用 户 输入 INTR 字符 (Ctrl+C) 时 触发 


SIGQUIT 3 Core 用 户 发 送 QUIT 字符 (Ctrlt/) 时 触发 
SIGILL 4 Core 执行 非法 指令 (程序 错误 、 试 图 执行 数据 段 与 栈 溢 出 等 ) 


SIGABRT | 6 | Core | 调用 abort 函数 产生 的 信号 


SIGFPE Core 算术 运算 错误 ( 浮 点 运算 错误 、 溢 出 与 除数 为 零 等 ) 
SIGKILL 7 无 条 件 结束 程序 运行 (不 能 被 捕获 、 阻 塞 或 者 忽略 ) 
SIGSEGV 非法 内 存 访问 

SIGPIPE 消息 管道 损坏 

SIGALRM 时 钟 定 时 信号 ，alarm 函数 使 用 该 信号 

SIGTERM 正常 程序 结束 信号 (可 以 被 捕获 、 阻 塞 或 者 忽略 ) 
SIGUSR1 30，10，16 Term 用 户 自 定义 信和 号 
SIGUSR2 17 用 户 自 定义 信号 
SIGCHLD 子 进程 终止 或 停止 

SIGCONT 继续 执行 已 经 停止 的 进程 

SIGSTOP 停止 进程 (不 能 被 捕获 、 阻 塞 或 者 忽略 ) 
SIGTSTP 停止 进程 (可 以 被 捕获 、 阻 塞 或 者 忽略 ) 
SIGTTIN 后 台 程 序 从 终端 中 读 取 数据 时 触发 
SIGTTOU 后 台 程 序 向 终端 中 写 数 据 时 触发 


表 13-3 SUSv2 和 POSIX.1-2001 标 准 中 的 信号 列表 


EST Ta 二 
SIGBUS 总 线 错误 (内 存 访问 错误 ) 

SIGPOLL | | Tem | Pollable 事件 发 生 (SysV)， 与 SIGIO 同 义 

SIGPROF 27, 27, 29 性 能 时 钟 信号 (包含 系统 调用 时 间 和 进程 占用 CPU 时 间 ) 
SIGSYS 非法 的 系统 调用 (SVr4 ) 

SIGTRAP EE 跟踪 / 断 点 ，Trap 指令 触发 


SIGURG 16, socket 紧急 信号 ( 4.2BSD ) 
SIGVTALRM | 26， RE 虚拟 时 钟 信号 (进程 占用 CPU 的 时 间 )( 4.2BSD ) 


SIGXCPU | 24, 24, 30 | Core | ”超过 CPU 时 间 资 源 限制 (4.2BSD) 
SIGXFSZ 超过 文件 大 小 资源 限制 (4.2BSD) 


在 表 13-3 中 ， 在 Linux 2.2 (包括 ) 内 核 之 前 ，SIGSYS、SIGXCPU、SIGXFSZ 以 及 SIGBUS (SPARC 和 MIPS 架 构 除 外 ) 的 默认 响应 动作 为 Term。 而 Linux 2.4 遵 循 POSIX.1-2001 要 求 ， 将 默认 响应 动作 
修改 为 Core。 


由 


表 13-4 其 他 信和 号 


信 号 值 动作 描 述 
SIGIOT 6 Core IOT 捕获 信号 ( 同 SIGABRT 信号 ) 
SIGEMT 7 —, 7 Term 硬件 异常 
SIGSTKFLT = 6 Term 协 处 理 需 堆栈 错误 (未 使 用 ) 

SIGIO 23，29，22 Term 文件 描述 符 准 备 就 绪 ， 可 以 进行 IO 操作 ( 4.2BSD) 
SIGCLD = = Ign 同 SIGCHLD 信号 

SIGPWR. 29，30，19 Term 电源 错误 (System V) 

SIGINFO 29, 一, = 同 SIGPWR 信和 号 

SIGLOST 一 一 一 Term 文件 锁 丢 失 

SIGWINCH 28，28，20 Isgn 窗口 大 小 改变 时 触发 (4.3BSD ，Sun ) 

SIGUNUSED -, 31, = Term 未 使 用 的 信号 (参考 SIGSYS 信号 ) 


在 表 13-2~ 表 13-4 中 ，“ 动 作 ” 列 中 的 项 目 指出 每 个 信号 默认 的 处 理 方式 ， 具 体 含义 如 表 13-5 所 示 。 


表 13-5 每 个 信号 默认 的 处 理 方式 


动作 撕 述 
Term 默认 动作 是 终止 相应 的 进程 
Ign 默认 动作 是 忽略 相应 的 信和 号 
Core 默认 动作 是 终止 相应 的 进程 并 保存 内 存 信息 
Stop 默认 动作 是 停止 相应 的 进程 
Cont 一 


默认 动作 是 如 果 当 前 


在 表 13-2~ 表 13-4 所 描述 的 标准 信号 中 ， 它 们 都 已 经 有 了 预定 义 值 ， 


信号 ， 对 该 信号 的 默认 反应 就 是 进程 终止 。 


除 此 之 外 ，Linux 内 核 还 支持 32 个 实时 信号 (编码 范 


围 为 33~64) 。 


回 到 


户 态 时 ; 或 者 在 一 个 进程 要 进入 或 离开 一 个 适当 的 低调 度 优先 级 


每 个 信号 有 了 确定 的 


相对 于 表 13-2~ 表 13-4 中 的 标准 信号 ， 实 时 信号 没有 预定 义 的 含义 ， 


通常 情况 下 ， 内 核 给 一 个 进程 发 送 软 中 断 信号 的 方法 是 在 进程 所 在 的 进程 表 项 的 信号 域 设 置 对 应 于 该 信号 的 位 
优先 级 ， 如 果 进 程 睡眠 在 可 被 中 断 的 优先 级 上 ， 则 唤醒 进程 ， 否 则 仅 设置 进程 表 中 信号 域 相 应 的 位 ， 而 不 唤醒 进程 。 了 解 这 一 点 很 


。 这 里 需 


途 及 含义 ， 并 且 每 种 信号 也 都 有 各 自 的 默认 动作 。 例 如 ， 当 点 击 键盘 的 “Ctrl+C” 时 


注意 的 是 ， 如 果 信 号 发 送 给 一 个 正在 


进程 停止 则 继续 执行 


， 就 会 产生 一 个 SIGINT 


整个 实时 信号 集 都 可 以 用 了 


用 户 自 


定义 的 目的 。 


生 眠 的 进程 ， 那 么 要 看 该 进程 进入 睡眠 的 


我 们 知道 ， 函 数 运行 在 


态 ， 当 遇 到 系统 调 


进程 
\ 
系统 调用 /中 朵 /异常 
进程 进入 内 核 
用 户 空间 | 


内 校 空间 | 


系统 调用 或 者 ' 


如 图 13-2 所 示 ， 进 程 由 于 


完成 相应 任务 返回 


年 眠 状态 时 。 


信号 处 理 程序 
fr 
| \ 


执行 完成 后 


| 再 次 返回 内 核 


de \ 


FP 断 服务 


图 13-2 信号 处 理 流程 


恢 


“系统 调用 /中 断 / 异 常 ”而 进入 内 核 ， 
后 ， 跳 到 用 户 态 执行 该 信号 处 理 函 数 。 信 号 处 理 函 数 执行 完毕 后 
(1) 信号 的 接收 


接收 信号 的 任务 是 由 内 核 代 理 的 ， 当 内 核 接收 到 信号 后 ， 
说 ， 暂 时 是 不 知道 有 信号 到 来 的 。 


， 返 回 内 核 态 ， 恢 复 内 核 栈 ， 再 次 返回 到 


会 将 其 放 到 对 应 进程 的 信号 队列 中 ， 并 同时 向 进程 发 送 一 个 中 断 ， 使 其 陷入 内 核 态 。 


为 进程 检查 是 否 收 到 信号 的 时 机 是 : 一 个 进程 在 即将 从 内 核 态 返 


、 中 断 或 异常 的 情况 时 ， 程 序 会 进入 内 核 态 。 那 么 信号 将 涉及 这 两 种 状态 之 间 的 转换 ， 其 过 程 如 图 13-2 所 示 。 


进程 


返回 用 户 空 间 
继续 执行 程 请 


,| 


复 内 核 栈 


户 空间 的 前 夕 ， 检 查 信号 队列 ， 如 果 有 信号 ， 则 根据 信号 向 量 表 找到 相应 的 信号 处 理 函 数 ， 同 时 备份 当前 内 核 栈 
户 态 继续 执行 程序 。 整 个 信号 处 理 流程 可 以 分 为 如 下 三 步 进行 


需要 注意 的 是 ， 此 时 的 信号 还 只 是 在 队列 中 ， 而 对 进程 来 


(2) 信号 的 检测 


当 进 程 陷入 内 核 态 后 ， 有 两 种 场景 会 对 信号 进行 检测 : 


第 一 是 进程 从 内 核 态 返回 到 用 户 态 前 进行 信号 检测 。 


第 二 是 进程 在 内 核 态 中 ， 从 睡眠 状态 被 唤醒 的 时 候 进行 信号 检测 。 


当 发 现 有 新 信号 时 ， 便 会 进入 下 一 步 信号 的 处 理 。 


(3) 信号 的 处 理 


信号 处 理 函 数 是 运行 在 用 户 态 的 ， 调 用 处 理 函 数 前 ， 内 核 会 将 当前 内 核 栈 的 内 容 备份 拷贝 到 用 户 栈 上 ， 并 且 修 改 指令 寄存 器 将 其 指向 信号 处 理 函 数 。 


接 下 来 进程 返回 到 用 户 态 中 ， 执 行 相应 的 信号 处 理 函 数 。 信 号 处 理 函 数 执行 完成 后 ， 还 需要 返回 内 核 态 ， 检 查 是 否 还 有 其 他 信号 未 处 理 。 如 果 所 有 信号 都 处 理 完成 ， 就 会 将 内 核 栈 恢复 (从 用 户 栈 的 备 
份 拷贝 回来 ) ， 同 时 恢复 指令 寄存 器 将 其 指向 中 断 前 的 运行 位 置 ， 最 后 回 到 用 户 态 继续 执行 进程 


至 此 ， 一 个 完整 的 信号 处 理 流程 便 结 束 了 ， 如 果 同时 有 多 个 信号 到 达 ， 上 面 的 处 理 流程 会 在 第 2 步 和 第 3 步骤 间 重 复 进行 。 


最 后 ， 对 信号 的 处 理 中 还 需要 注意 如 下 几 点 : 


“ 在 一 些 系 统 中 ， 当 一 个 进程 处 理 完 中 断 信号 返回 用 户 态 之 前 ， 内 核 清 除 用 户 区 中 设 定 的 对 该 信号 的 处 理 例 程 的 地 址 ， 即 下 一 次 进程 对 该 信号 的 处 理 方法 又 改 为 默认 值 ， 除 非 在 下 一 次 信号 到 来 之 前 再 
次 使 用 signal 系 统 调用 。 这 可 能 会 使 得 进程 在 调用 signal 之 前 又 得 到 该 信号 而 导致 退出 。 但 在 BSD 系 统 中 ， 内 核 不 再 清除 该 地 址 ， 与 此 同时 ， 它 模拟 了 对 硬件 中 断 的 处 理 方法 ， 即 在 处 理 某 个 中 断 时 ， 阻 止 接收 
新 的 该 类 中 断 。 


“ 如 果 要 捕捉 的 信号 发 生 于 进程 正在 一 个 系统 调用 中 时 ， 并 且 该 进程 睡眠 在 可 中 断 的 优先 级 上 ， 这 时 该 信号 引起 进程 作 一 次 longjmp， 跳 出 睡眠 状态 ,返回 用 户 态 并 执行 信号 处 理 例 程 。 当 从 信号 处 理 例 
程 返回 时 ， 进 程 就 像 从 系统 调用 返回 一 样 ， 但 返回 了 一 个 错误 代码 ， 指 出 该 次 系统 调用 曾经 被 中 断 。 在 BSD 系 统 中 ， 内 核 可 以 自动 重新 开始 系统 调用 。 
“ 如 果 进 程 睡 眠 在 可 中 断 的 优先 级 上 ， 则 当 它 收 到 一 个 要 忽略 的 信号 时 ， 该 进程 被 唤醒 ， 但 不 做 longjmp， 继 续 睡 眠 。 用 户 也 感觉 不 到 进程 曾经 被 唤醒 过 ， 就 像 是 没有 发 生 过 该 信号 一 样 。 


“ 内 核对 子 进程 终止 (SIGCLD) 信号 的 处 理 方法 与 其 他 信号 有 所 区 别 。 当 进程 检查 出 接收 到 了 一 个 子 进程 终止 的 信号 时 ， 在 默认 情况 下 ， 该 进程 就 像 是 没有 收 到 该 信号 似 的 ， 如 果 父 进程 执行 了 系统 调 
用 wait， 进 程 将 从 系统 调用 wait 中 醒 来 并 返回 wait 调 用 ， 执 行 一 系列 wait 调 用 的 后 续 操作 ( 找 出 僵 死 的 子 进程 ， 释 放 子 进程 的 进程 表 项 ) ， 然 后 从 wait 中 返回 。SIGCLD 信 号 的 作用 是 唤醒 一 个 睡眠 在 可 被 中 断 
优先 级 上 的 进程 。 如 果 该 进程 捕 提 了 这 个 信号 ， 就 像 普 通信 号 处 理 一 样 转 到 处 理 例 程 。 如 果 进 程 忽略 该 信号 ， 那 么 系统 调用 wait 的 动作 就 有 所 不 同 ， 因 为 SIGCLD 的 作用 仅仅 是 唤醒 一 个 睡眠 在 可 被 中 断 优 先 
级 上 的 进程 ， 那 么 执行 wait 调 用 的 父 进 程 被 唤醒 继续 执行 wait 调 用 的 后 续 操作 ， 然 后 等 待 其 他 的 子 进程 。 


如 果 一 个 进程 调用 signal 系 统 调用 ， 并 设置 了 SIGCLD 的 处 理 方法 ， 并 且 该 进程 有 子 进程 处 于 僵 死 状态 ， 则 内 核 将 向 该 进程 发 一 个 SIGCLD 信 号 


建议 110: 尽量 使 用 sigaction 蔡 代 signal 


要 对 一 个 信号 进行 处 理 ， 就 需要 给 出 此 信号 发 生 时 系统 所 调用 的 处 理 函 数 。 可 以 对 一 个 特定 的 信号 (除去 SIGKILL 和 SIGSTOP 信 号) 注册 相应 的 处 理 函 数 。 注 册 某 个 信号 的 处 理 函 数 后 ， 当 进 程 接收 到 
号 时 ， 无 论 进程 处 于 何 种 状态 ， 都 会 停 下 当前 的 任务 去 执行 此 信号 的 处 理 函 数 。 


在 标准 C 语 言 库 中 ， 一 个 进程 能 够 使 用 signal 函 数 来 改变 一 个 信号 处 理 方式 。 它 被 定义 在 signal.h 文 件 中 ， 原 型 如 下 : 


#include <signal.h> 
void (*signal (int signum, void (*handler) (int) ) ) (int) ; 


对 于 signal 函 数 ， 因 为 其 中 岁 套 了 两 个 函数 指针 的 说 明 。 因 此 ， 也 可 以 使 用 typedef 来 简化 这 个 原型 ， 如 下 代码 所 示 : 


typedef void (*sighandler t) (int) ; 
sighandler t signal (int signum, sighandler t handler) ; 


现在 ， 通 过 这 个 简化 版 本 的 原型 ， 就 可 以 很 容易 看 清楚 signal 函 数 的 原型 了 。 


在 signal 函 数 中 ， 它 会 依 参 数 signum 指 定 的 信号 编号 来 设置 该 信号 的 处 理 函 数 。 当 指定 的 信号 到 达 时 就 会 跳 转 到 参数 handler 指 定 的 函数 执行 。 当 一 个 信号 的 信号 处 理 函 数 执行 时 ， 如 果 进 程 又 接收 到 
该 信号 ， 该 信号 会 自动 被 储存 而 不 会 中 断 信号 处 理 函 数 的 执行 ， 直 到 信号 处 理 函 数 执行 完毕 再 重新 调用 相应 的 处 理 函 数 。 但 是 ， 如 果 在 信号 处 理 函 数 执行 时 进程 收 到 其 他 类 型 的 信号 ， 该 函数 的 执行 就 会 被 
中 断 。 


需要 特别 注意 的 是 ， 信 号 SIGKILL 和 SIGSTOP 不 能 被 捕获 或 忽略 。 


川 
喘 


参数 handler 的 取 值 可 分 为 两 类 : 一 类 是 程序 员 定义 的 函数 ( 称 为 “信号 处 理 器 ”) 地 址 ， 另 一 类 则 是 SIG_IGN 与 SIG_DFL。 
“如果 设置 为 IG_IGN， 则 信号 被 名 略 。 


“ 如 果 设 置 为 SIG_DFL， 则 采用 上 默认 动作 。 


函数 signal 的 返回 值 类 型 同 第 二 个 参数 handler， 是 一 个 指向 某 个 返回 值 为 空 并 带 有 一 个 整 型 参数 的 函数 指针 。 正 确 返回 之 前 的 信号 处 理 器 ， 错 误 时 返回 SIG_ERR。 


下 面 的 示例 注册 了 一 个 信号 处 理 函 数 处 理 SIGUSR1 与 SIGUSR2， 如 果 在 SIGUSR2 后 面 出 现 了 一 个 或 多 个 SIGUSR1，sig2 将 被 设置 为 1， 这 样 就 在 信号 处 理 函 数 内 部 有 效 地 实现 了 一 个 有 限 状态 机 ， 如 代 
码 清单 13-1 所 示 。 


代码 清单 13-1 _ signal 示例 程 序 


#include <stdio.h> 
#include <signal.h> 
volatile sig atomic t sigl = 0; 
volatile sig atomic t sig2 = 0; 
void handler (int signum) 
{ 

if (signum == SIGUSR1) 

{ 


sigl = 1; 


} 

else if (sig1) 
sig2 = 1; 

} 


int main (void) 


if (signal (SIGUSR1， handler) 一 SIG FRR) 
4 /* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 
i (signal (SIGUSR2, handler) 一 SIG ERR) 
/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 


i 
while (sig2 = 0) 
{ 
/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 


/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 
return 0; 


如 代码 清单 13-1 所 示 ， 事 实 并 非 如 此 ， 这 里 的 handler 实 现存 在 一 个 竞争 条 件 。 如 果 调 用 handler 处 理 SIGUSR1， 并 且 它 被 中 断 以 处 理 SIGUSR2， 从 而 就 有 可 能 导致 sig2 并 未 被 设置 。 


相对 于 标准 C 语 言 库 中 的 signal 函 数 ，POSIX 标 准 提供 的 sigaction 函 数 则 允许 显 式 设置 信号 屏 菩 。 因 此 ， 函 数 sigaction 可 以 用 于 防止 信号 处 理 函 数 中 断 自身 。 


函数 sigaction 原 型 如 下 : 


int sigaction (int signum, 
const struct sigaction *act, 
struct sigaction *oldact) ; 


该 函数 的 第 一 个 参数 signum 为 信号 的 值 ， 可 以 为 除 SIGKILL 及 SIGSTOP 外 的 任何 一 个 特定 有 效 的 信号 (为 这 两 个 信号 定义 自己 的 处 理 冰 数 ， 将 导致 信号 安装 错误 ) ; 第 二 个 参数 是 指向 结构 sigaction 的 
一 个 实例 的 指针 ， 在 结构 sigaction 的 实例 中 指定 了 对 特定 信号 的 处 理 ， 若 为 NULL， 进 程 会 以 默认 方式 对 信号 处 理 ; 第 三 个 参数 oldact 指 向 的 对 象 用 来 保存 返回 的 原来 对 相应 信号 的 处 理 ， 可 指定 oldact 为 
NULL。 如 果 把 第 二 、 第 三 个 参数 都 设 为 NULL， 那 么 该 函数 可 用 于 检查 信号 的 有 效 性 。 


在 函数 sigaction 中 ， 第 二 个 参数 act 最 ; 


要 ， 它 包含 了 对 指定 信号 的 处 理 、 信 号 所 传递 的 信息 、 信 号 处 理 函 数 执行 过 程 中 应 屏蔽 掉 哪 些 信号 等 。 


sigaction 结 构 定义 如 下 : 
struct sigaction { 
void (*sa handler) (int) ; 
void (*sa sigaction) (int， siginfo t *, void *) ; 
sigset t sa mask; 
int sa flags; 
void (*sa_restorer) (void) ; 
}; 
其 中 : 


“ 信号 处 理 函 数 可 以 采用 “void (*sa_handler) (int) ”或 “void (*sa_sigaction) (int, siginfo_t*, void*) ”。 到 底 采 用 哪个 要 看 sa_flags 中 是 否 设 置 了 SA_SIGINFO 位 ， 如 果 设 置 了 就 采 
用 “void (*sa_sigaction) (int，siginfo_tt+，void*) ”， 此 时 可 以 向 处 理 函 数 发 送 附 加 信息 ; 否则 ， 上 默认 情况 下 采用 “void (*sa_handler) (int) ”， 此 时 只 能 向 处 理 函 数 发 送信 号 的 数值 。 


“ sa_handletr 与 函数 signal 的 参数 handler 相 同 。 
“ sa_mask 指 定 在 信号 处 理 函 数 执行 的 时 候 哪个 信号 应 该 被 阻塞 。 此 外 ， 触 发 处 理 器 的 信号 也 会 被 阻塞 ， 除 非 5A_NODEFER 标 志 被 设置 。 
“sa_testorer 是 历史 遗留 物 且 不 应 该 再 被 使 用 ，POSIX 也 没有 指定 sa_restorer 元 素 。 


“ sa_flags 指 定 一 组 标志 来 更 改 信号 行为 。 


了 解 函数 sigaction 之 后 ， 下 面 来 看 代码 清单 13-2。 


四 


代码 清单 13-2 sigaction 示 例 程序 


#include <stdio.h> 
#include <signal.h> 


volatile sig atomic t sigl = 0; 
volatile sig atomic t sig2 = 0; 
void handler (int signum) 
{ 
if (signum == SIGUSR1) 
{ 
sigl = 1; 
} 
else if (sig]l) 
{ 
sig2 = 1; 
i 
} 
int main (void) 
struct sigaction act; 
act.sa handler = &handler; 
act.sa flags = 0; 
if (sigemptyset (&act.sa mask) ! = 0) 
{ 
/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 


if (sigaddset (&act.sa mask, SIGUSR1) ) 

/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 
if (sigaddset (&act.sa mask, SIGUSR2) ) 

/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 
if (sigaction (SIGUSR1, &act, NULL) ! = 0) 

/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 
if (sigaction (SIGUSR2, &act, NULL) ! = 0) 

/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 
we (sig2 一 0) 


/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 


/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 


return 0; 


很 显然 ， 在 代码 清单 13-2 中 通过 sigaction 函 数 显 式 设置 信号 屏蔽 ， 从 而 避免 代码 清单 13-1 的 问题 。 


除 此 之 外 ， 函 数 signal 每 次 设 


体 的 信号 处 理 函 数 ( 非 SIG_IGN) 只 能 生效 一 次 ， 每 次 在 进程 响应 处 理 信号 时 ， 随 即将 信号 处 理 函 数 恢复 为 默认 处 理 方式 。 所 以 ， 如 果 需 要 多 次 以 相同 的 方式 处 理 某 


个 信号 ， 通 常 的 做 法 是 在 响应 函数 开始 再 次 调用 signal 设 置 。 


如 下 面 的 代码 片段 所 示 : 


二 int Cs 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/,.. 


signal (SIGINT, sig int); 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/... 


int sig int () 


signal (SIGINT, sig int); 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/... 


这 种 代码 片段 存在 一 个 严重 的 问题 : 在 信号 发 生 之 后 到 信号 处 理 程序 中 调用 signal 函 数 之 间 有 一 个 时 间 窗 口 。 在 此 段 时 间 中 ， 可 能 发 生 另 一 次 中 断 信和 号。 第 二 个 信号 会 造成 执行 默认 动作 ， 而 对 中 断 信 
号 则 是 终止 该 进程 。 这 种 类 型 的 程序 段 在 大 多 数 情况 下 会 正常 工作 ， 使 得 我 们 认为 它们 正确 ， 而 实际 上 却 并 不 是 如 此 。 


另 一 个 问题 是 ， 在 进程 不 希望 某 种 信号 发 生 时 ， 它 不 能 关闭 该 信号 。 


与 此 同时 ， 函 数 signal 的 行为 在 各 个 UNIX 版 本 中 是 不 同 的， 并 且 在 Linux 不 同 历史 版 本 中 也 是 不 同 的 。 鉴 于 上 面 的 问题 ，POSIX 建 议 你 尽量 使 用 sigaction 函 数 来 蔡 换 signal 函 数 。 


建议 111: 避免 在 信号 处 理 函 数 内 部 访问 或 修改 共享 对 象 


在 C 语 言 中 ， 应 该 尽量 避免 在 信号 处 理 函 数 内 部 访问 或 修改 共享 对 象 ， 否 则 将 会 导致 竞争 读 写 问 题 ， 从 而 引起 数据 状态 的 不 一 致 。 如 代码 清单 13-3 所 示 。 


代码 清单 13-3 ”访问 与 修改 共享 对 象 的 示例 


Char *error msg; 
void handler (int signum) 


{ 


strcpy (error msg, "SIGINT") ; 


int main (void) 
{ 
signal (SIGINT, handler) 


error msg = (char *) malloc (50) ; 


if (error msg 一 NULL) 
{ 


/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 
} 
strcpy (error msg, "No errors") ; 
/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 
return 0; 


在 代码 清单 13-3 中 ， 共 享 对 象 error_ msg 被 更 新 ， 提 示 SIGINT 信 号 被 发 送 。 如 果 在 分 配 完成 之 后 产生 一 个 SIGINT， 就 会 出 现 未 定义 的 行为 。 


要 解决 这 个 问题 ， 可 以 在 信号 处 理 函 数 中 设置 一 个 volatile sig_atomic t 类 型 的 变量 并 返回 。 同 时 ， 读 写 volatile sig_atomic t 类 型 的 变量 也 不 存在 上 面 的 问题 ， 如 代码 清单 13-4 所 示 。 


代码 清单 13-4 ”设置 volatile sig_atomic t 类 型 的 变量 解决 示例 


volatile sig atomic t flag = 0; 


void handler (int signum) 

! flag = 1; 

1 main (voidg) 

Char *error msg = (char *) 
(error msg 一 NULL) 


malloc (50) 


/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 


} 
signal (SIGINT, handler) 


strcpy (error msg, "No errors") ; 
/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 


if (flag) 
{ 

strcpy (error msg, 
} 


return 0; 


"SIGINT received.") ; 


建议 112: 避免 以 递归 方式 调用 raise 水 数 


在 C 语 言 中 ， 函 数 raise 允 许 一 个 进程 给 它 自己 发 送 一 个 信号 。 但 是 ， 必 须 避 免 以 递归 方式 调用 raise 函 数 。 


看 下 面 一 段 示例 代码 ， 如 代码 清单 13-5 所 示 。 


代码 清单 13-5 ” 谱 套 调用 raise 函 数 示例 


void error msg (int signum) 


{ 


/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 


void handler (int signum) 

{ 
if (raise (SIGUSR1) ! = 0) 
{ 


/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPSVText/... 


E 


int main (void) 


{ 


if 
{ 


(signal (SIGUSR1， 


/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 


} 


if (signal (SIGINT, handler) 
/* http://www.hzcourse 

} 

if (raise (SIGINT) ! = 0) 


{ 
/* http://www.hzcourse 


} 
return EXIT SUCCESS; 


error_ msg) 


一 SIG ERR) 


=— SIG ERR) 


.Com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 


‘Com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 


re 


wy 


ey 
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在 代码 清单 13-5 中 ， 函 数 hand 


会 导致 发 生 未 定义 的 行为 。 


当然 ， 这 种 raise 函 数 的 庶 套 调 有 


er 用 于 执行 SIGINT 信 号 特定 的 任务 ， 并 同时 在 该 函数 中 引发 一 个 S 


GUSR1 信 号 将 这 个 中 断 写 入 日 志 。 但 值得 注意 的 是 ， 在 函数 handler 中 存在 的 这 个 raise 函 数 的 庶 套 调 


方式 也 是 C99 标 准 所 不 允许 的 。 


因此 ， 在 这 里 可 以 直接 修改 成 调 


13-6 所 示 。 


error_msg 函 数 来 写 入 日 志 ， 如 代码 清和 


代码 清单 13-6 ”代码 清单 13-5 的 合理 解决 方式 


void error msg (int signum) 


/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 


void handler (int signum) 


{ 
} 


error msg (SIGUSR1) ; 


int main (void) 


{ 


if (signal (SIGUSR1， 

/* http://www.hzcourse 
(signal (SIGINT, handler) 

/* http://www.hzcourse 

ie 
{ 


(raise (SIGINT) ! = 0) 
/* http://www.hzcourse 


} 
return EXIT SUCCESS; 


error msg) 


一 SIG ERR) 


.Com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 


=— SIG ERR) 


.Com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 


.Com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 


wy 


Rg 


4 


当然 ， 如 果 这 里 的 信号 处 理 函 数 调 


的 是 POSIX 标 准 的 sigaction 函 数 来 处 理 ， 那 么 可 以 安全 调 有 


raise 函 数 。 


此 ， 代 码 清单 13-7: 


代码 清单 13-7 ”代码 清单 13-5 的 sigaction 函 数 解决 方式 


void error msg (int signum) 


/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... */ 


void handler (int signum) 


¥ 


if 
f 


} 


(raise (SIGUSR1) ! = 0) 


/* http://www.hzcourse 


int main (void) 


{ 


struct sigaction act; 

act.sa flags = 0; 

if (sigemptyset (&act.sa mask) 
{ 


} 

act.sa handler = error msg; 

if (sigaction (SIGUSRI, &act, 
{ 


/* http://www.hzcourse. 


/* http://www.hzcourse. 


} 

act.sa handler = handler; 

if (sigaction (SIGINT, &act, 
{ 


/* http://www.hzcourse. 


} 
if != 0) 


{ 


(raise (SIGINT) 


/* http://www.hzcourse. 


return EXIT SUCCESS; 


.Com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 


0) 


NULL) 


0) 


NULL) ! = 0) 


com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 


com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/... 


com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 


com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/... 


合法 与 安全 的 。 
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2011 稀 


E12 月 ，ANSI 正 式 采 纳 了 ISO/IEC 9899: 2011 标 准 ， 即 C11 标 准 ， 它 是 C 语 言 的 现行 标准 。 


第 14 章 了 解 C11 标 》 


迄今 为 止 ,市面 上 的 C 语 言 编译 器 (如 G 


标准 的 新 特性 。 表 14-1 描 述 了 GCC 编 译 器 各 版 本 对 C11 标 准 的 支持 结果 ， 仅 供 参 考 。 


表 14-1 GCC 编 译 器 各 版 本 对 C11 标 准 的 支持 结果 


CC、Clang、Intel C++Compiler 等 ) 都 只 能 够 部 分 支持 C11 


-std=c1x GCC 4.6 


<float.h> 文件 中 增加 更 多 的 浮 点 数 处 理 的 宏 GCC 4.6 
typedef 重 定义 GCC 4.6 
_Static_assert GCC 4.6 
匿名 结构 体 /联合 体 GCC 4.6 
-std=c11 与 -std=gnull GCC 4.7 
_STDC VERSION ==201112L GCC 4.7 
可 以 创建 复数 的 宏 GCC 4.7+ glibc 2.16 
_Alignas、_Alignof、max _ align t 与 stdalign.h GCC 4.7 
Unicode 支持 GCC 4.7 
_Noreturn 、stdnoreturn.h GCC 4.7 
_Atomic 、stdatomic.h GCC 4.9 
_Generic GCEA9 
_Thread_local GCC4.9 
uchar.h glibc 2.16 
static_assert glibc 2.16 
删除 gets glibc 2.16 
( 续 ) 

struct timespec 、timespec get glibc 2.16 
at quick exit、quick exit glibc 2.16 
aligned alloc glibc 2.16 
fopen() 新 的 模式 "x" glibc 2.X 


建议 113: 谨慎 使 用 _Generic 


对 接触 过 面向 对 象 程序 设计 的 程序 员 来 讲 ， 相 信 各 位 对 泛 型 编程 并 不 陌生 。 在 C11 标 准 中 ，_Generic 关 键 字 可 以 让 C 语 言 也 如 同 C+ + 等 面向 对 象 程序 设计 语言 一 样 ， 使 其 支持 轻 量 级 的 泛 型 编程 设计 。 
利用 _Generic 关 键 字 ， 可 以 简单 地 将 一 组 具有 不 同类 型 却 有 相同 功能 的 函数 抽象 为 一 个 统一 的 接口 ， 语 法 形式 如 下 : 


generic-selection: 

_Generic ( assignment-expression , generic-assoc-list ) 
generic-assoc-list: 

generic-association 

generic-assoc-list , generic-association 
generic-association: 

type-name : assignment-expression 

default : assignment-expression 


与 sizeof 与 typeof 类 似 ，_Generic 中 的 assignment-expression 只 用 于 在 编译 时 获得 该 表达 式 的 类 型 ， 而 不 会 对 该 表达 式 做 运行 时 计算 ， 如 代码 清单 14-1 所 示 。 


代码 清单 14-1 _Generic 使 用 示例 


#include <stdio.h> 
#include <string.h> 
#include <stddef.h> 
#include <stdint.h> 
#define getTypeName (x) Generic ( (x) , _Bool: " Bool", \ 
char: "char", 
signed char: "signed char", \\ 
unsigned char: "unsigned char", \ 
short int: "short int", \ 
unsigned short int: "unsigned short int", \ 
hs 
unsigned int: "unsigned int", \ 
leng int: "long int”, 全 
unsigned long int: "unsigned long int", \\ 
long long int: "long long int", \ 
unsigned long long int: "unsigned long long int", \ 
Float; “float™, ™% 
double: "double", \ 
long double: "long double", \\ 


Char *: "pointer to char", \ 
void *: "pointer to void", \ 
int *: "pointer to int") 


int main (void) 


char C = 'a'; 

Size 七 s; 

ptrdiff t p; 
intmax t i; 

int arr[3] = {0 }; 
printf ("s i getTypeName (s) ) ; 
printf ("wp i getTypeName (p) ) ; 
printE (Vi 4 ， getTypeName (i) ) ; 
printf ("c is '%s'\n", getTypeName (c) ) ; 
printf ("arr is '%s'\n", getTypeName (arr) ) ; 


Printf ("Ox7FFFFFFF is '%s'\n", getTypeName (0x7FFFFFFF) ) ; 
Printf ("OxFFFFFFFF is '%s'\n", getTypeName (OxFFFFFFFF) ) ; 
Printf ("Ox7FFFFFFFU is '%s'\n", getTypeName (0x7FFFFFFFU) ) ; 


运行 结果 如 图 14-1 所 示 。 


et A est 
+(F) 编辑 (E) 查看 (V) 搜索 (5) 终端 (T) 帮助 (H) 


[ootSLoceLRoa Test] # gcc -std=cll Test.c 
| root@localhost Test|]# . /a.out 
s is 'unsigned long int' 


p is 'long int' 

i is 'long int' 

Cc is 'char' 

opr is “pointer te nt 
OXFFEPFEPE 429 TNE 
OxFFFFFFFF is 'unsigned int' 
Ox7FFFFFFFU is ' unsigned int' 


14-1 代码 清单 14-1 的 运行 结果 


除 此 之 外 ， 还 必须 保证 generic-association-list 中 有 与 assignment-expression 类 型 相同 的 generic-association 与 之 对 应 ， 否 则 编译 就 会 报错 。 例 如 ， 在 代码 清单 14-1 的 main 函 数 中 添加 如 下 两 行 代 
码 : 


float *fp=NULL 
printf ("fp is gs '\n", getTypeName (fp) ) ; 


很 显然 ，generic-assoc-list 中 没有 generic-association 与 fp 相 匹 配 的 类 型 ， 从 而 导致 编译 出 错 ， 如 图 14-2 所 示 。 


ot@localhost:~/Test 


| root@localhost Test]# gcc -std=cll Test.c 

Test.c: 在 函数 hain 中 : 

Test.c: 7: 33: 错误 : “Generic”seLector of type Tfloat 米 ”1S 
not compatible with any association 

#define getTypeName( x) Generic((x), Bool: " Bool'", \ 


Test.c: 40: 30: 附注 : in expansion of macro getTypeName” 
printf("fp is '%s'\n", getTypeName( fp)); 


| root@localhost Test]X 国 


图 14-2 ”类 型 不 匹配 


要 解决 图 14-2 这 种 类 型 不 匹配 时 导致 的 编译 错误 ， 你 可 以 在 generic-association-list 中 添加 default 处 理 ， 那 么 编译 就 能 够 顺利 进行 ， 如 下 面 的 代码 所 示 : 


#define getTypeName (x) _Generic ( (xX) ， _Bool: " Bool", \ 
char: "ehar", \ 


signed char: "signed char", \\ 

unsigned char: "unsigned char", \ 

short int: "short int", \ 

unsi igned Short int: "unsigned short int"， \ 

mk int 

unsigned int: wunsi igned int", \ 

long int: "long int" \ 

unsigned long int: unsi ne long int", \ 

long long int: "long long 1 

unsigned long long int: "ims igned long long int", \ 


double: "double", \ 

long double: "long double",\ 
Char *: "pointer to char", 人 
void *: "pointer to void", \\ 
int *: "pointer to int", \ 
default: "other") 


现在 ， 如 果 编 译 器 发 现 generic-assoc-list 中 没有 generic-association 与 fp 相 匹 配 的 类 型 时 ， 将 默认 执行 default 处 理 ， 运 行 结果 如 图 14-3 所 示 。 


root@localhost:~/Test 


root@localhost Test]# gcc -std=cll Test.c 
| root@localhost Test]# . /a.out 
s is 'uUnsigned Long int’ 
p is 'long int' 
二 TLorn. 1nt 
c jis 'char' 
arr -1s pointer:to Lnt’ 
fp is 'other' 
Ox7FFFFFFF is 'int' 
OxFFFFFFFF is 'unsigned int' 
Ox7FFFFFFFU is ' unsigned int' 


图 14-3 ”添加 default 处 理 后 的 运行 结果 


建议 114: 尽量 使 用 gets _s 蔡 换 gets 函 数 


在 建议 81 中 就 曾 提出 : 由 于 gets 函 数 不 检 查 字 符 串 的 大 小 ， 必 须 遇 到 换行 符 或 文件 结尾 才 会 结束 输入 ， 因 此 容易 造成 缓存 溢出 等 安全 性 问题 ， 从 而 导致 程序 崩溃 。 因 此 ， 考 虑 到 程序 的 安全 性 和 健壮 
性 ， 建 议 使 用 fgets 来 蔡 换 gets 函 数 。 


而 在 C11 标 准 中 ， 直 接 移 除了 gets 函 数 ， 并 使 用 gets_s 函 数 来 取代 它 。 毋 庸 置疑 ，C11 标 准 中 的 gets_s 函 数 是 gets 函 数 的 一 个 兼容 且 更 安全 的 版 本 。 相 对 于 fgets 函 数 ，gets_s 函 数 从 功能 上 比 fgets 函 数 
更 接近 gets 函 数 ，gets_s 函 数 只 从 stdin 指 向 的 流 中 读 取 且 不 保留 换行 符 。 其 中 ，gets_s 函 数 的 原型 如 下 : 


char *gets 5 ( char *str, rsize t n ); 


不 难 发 现 ， 相 对 于 gets 函 数 ，gets_s 函 数 接收 一 个 额外 的 参数 “rsize _t n”， 参 数 n 用 于 指定 输入 的 最 大 字符 数 。 其 中 : 


“ 如 果 n 等 于 0， 或 者 n 大 于 RSIZE_MAX， 又 或 者 是 str 指 针 为 NULL， 都 将 产生 一 个 错误 条 件 。 如 果 产生 了 错误 条 件 ， 那 么 将 不 会 有 任何 的 输入 动作 ，str 将 不 会 被 更 改 。 
“ 该 函数 最 多 读 入 n-1 个 字符 ， 并 且 在 最 后 一 个 字符 读 入 数组 后 立即 在 其 后 加 上 空 字符 。 因 此 ， 如 果 指 定 的 输入 字符 数 超过 目标 缓冲 区 的 长 度 ， 那 么 gets_s 函 数 仍然 可 能 导致 缓冲 区 溢出 等 安全 性 问题 。 
: 如 果 函 数 执行 成 功 ， 则 返回 stt。 如 果 函 数 执行 失败 ， 则 返回 NULL， 同 时 把 缓冲 区 设置 为 空 字符 串 ， 并 清除 输入 流 至 下 一 个 换行 符 。 


函数 gets_s 的 使 用 示例 如 下 面 的 代码 所 示 : 


char buf[100] ; 
if (gets s (buf, sizeof (buf) ) == NULL) 
{ 


} 


建议 115: 尽量 使 用 带 边 界 检查 的 字符 串 操作 上 函数 


在 C 语 言 中 ， 不 检查 边界 的 字符 串 操作 函数 给 程序 带 来 了 很 大 的 安全 隐患 ，C11 附 录 K 定 义 了 一 组 带 边界 检查 的 函数 接口 进行 蔡 代 。 其 中 ，C11 附 录 K 的 3.7 节 定义 了 memcpy s、memmove sS、 
strcpy_s、 strncpy_s、 strcat s、strncat s、strtok_ s、memset_s、strerror _s 与 strnlen_s 函 数 ， 分 别 作为 memcpy、memmove、strcpy、strncpy、strcat、strncat、strtok、memset、strerror 与 


strnlen 的 替代 品 ， 函 数 原型 如 下 所 示 : 


/* 复 制 函 数 */ 
errno t memcpy s (void * restrict sl, rsize t slmax， 
Const void * restrict s2, rsize t n); 
errno t memmove s (void *sl, rsize t slmax, const void *s2, rsize 七 n) ; 
errno t strcpy s (char * restrict sl, 
rsize t slmax, const char * restrict s2) ; 
errno t strncpy s (char * restrict sl, 
rsize 七 slmax, const char * restrict s2, rsize t n); 
/* 连 接 函 数 */ 
errno 七 strcat s (char * restrict sl, 
rsize 七 slmax, const char * restrict s2) ; 
errno t strncat s (char * restrict s1， 
rsize t slmax, const char * restrict s2, rsize 七 n) ; 
/* 查 找 函 数 */ 
char *strtok s (char * restrict sl1, 
rsize 七 * restrict slmax, const char * restrict s2, 
Char ** restrict ptr) ; 
/* 其 他 函数 */ 
errno t memset s (void *s, rsize t smax, int c, rsize t n); 
errno t strerror s (ehar *s, rsize 七 maxsize, errno t errnum) ; 
size t strerrorlen s (errno t errnum) ; 
size 七 strnlen s (const char *s, size 七 maxsize) ; 


看 下 面 一 段 示例 代码 : 


void WriteMessage (const char *msg) { 


static Const char prefix[] = "Message: "; 
static const char suffix[] = "\n"; 

char buf[BUFSIZ]; 

strcpy (buf, prefix) ; 

strcat (buf, msg) ; 

strcat (buf, suffix) ; 

fputs (buf, stderr) ; 


从 上 面 的 示例 代码 中 不 难 发 现 ， 如 果 给 参数 msg 传 入 的 字符 串 长 度 大 于 BUFSIZ， 就 将 导致 缓冲 区 溢出 错误 。 同 时 ， 如 果 向 参数 msg 传 入 NULL 指 针 ， 还 将 导致 发 生 程序 未 定义 行为 。 


当然 ， 如 果 这 里 使 用 C11 标 准 中 提供 的 带 边 界 检 查 的 函数 接口 ， 就 可 以 很 简单 地 避免 缓冲 区 溢出 错误 ， 如 下 面 的 示例 代码 所 示 : 


void WriteMessage (const char *msg) 


{ 


errno t err; 

static const char prefix[ 
static const char suffix[ 
Char buf{[BUFSIZ]; 

err = strcpy_s (buf, sizeof (buf) , prefix) ; 


"Message: ™; 
"nn; 


] 
] 


if (err ! = 0) 
{ 
/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openres 
LE: 
err = strcat s (buf, sizeof (buf) , msg) ; 
if (err ! = 0) 
{ 
/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openres 
} 
err = strcat s (buf, sizeof (buf) , suffix) ; 
if (err ! = 0) 


{ 
/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openres 

} 

fputs (buf, stderr) ; 


np 


昌 然 如 此 ， 但 C11 附 录 K 中 定义 的 边界 检查 函数 并 非 万 无 一 失 。 如 果 把 一 个 无 效 的 长 度 传递 给 这 些 函 数 之 一 ， 它 同样 可 能 会 遭受 缓冲 区 溢出 等 问题 。 因 此 ， 若 教条 地 认为 “ 带 边 界 检查 的 函数 总 是 天 生 就 


比 相应 的 传统 函数 更 安全 ”， 这 种 观点 是 不 正确 的 。 同 时 ， 为 遗留 代码 库 引 入 边界 检查 函数 作为 与 它们 对 应 的 传统 函数 的 蔡 代 也 需要 非常 谨慎 ， 以 免 在 这 个 过 程 中 无 意 地 注入 新 的 代码 缺陷 。 例 如 ， 下 面 的 
代码 就 显得 有 点 多 此 一 举 。 


#define IP "192.168.0.1" 
size t ipLen = strnlen s (IP, sizeof (IP) ) ; 


建议 116: 了 解 C11 多 线程 编程 


对 普通 C 语 言 程序 员 来 阅 ，C11 标 准 的 最 大 改变 应 该 算是 对 多 线程 编程 的 支持 进行 了 标准 化 。 尽 管 C11 线 程 仪 仅 是 一 个 “建议 标准 ” ， 目 前 市 面 上 的 绝 大 部 分 5 语言 编译 器 也 都 不 支持 该 特性 。 


在 C11 标 准 库 中 ， 头 文件 <threads.h> 声 明了 创建 和 管理 线程 、 条 件 变量 、 初 始 化 、 互 斥 对 象 与 特定 于 线程 的 存储 等 函数 。 头 文件 <stdatomic.h> 则 声明 了 不 可 中 断 对 象 访问 工具 。 最 后 ， 还 引入 一 个 
新 的 存储 类 修饰 符 Thread local， 声 明 为 Thread _ local 的 变量 不 在 多 线程 之 间 共 享 ， 即 每 个 线程 持 有 变量 单独 的 拷贝 。 


(1) 线程 创建 与 管理 


/* 用 于 创建 一 个 新 线程 执行 func (arg) 调用， 新 线程 的 标识 符 存放 在 thr 内 */ 
int thrd create ( thrd t *thr, thrd start 七 func, void *arg ) ; 
/* 用 于 判断 两 个 线程 标识 符 是 否 相等 〈 即 标识 同一 线程 ) */ 

int thrd equal ( thrd t lhs, thrd t rhs ) ; 

/* 返 回调 用 线程 的 标识 符 * 太 

thrd t thrd _ current () ; 

/* 休 眠 当前 线程 */ 

int thrd sleep ( const struct timespec* time point, 


struct timespec* remaining ) ; 


/* 让 出 CPU 给 其 他 线程 或 进程 */ 

void thrd yield () ; 

/* 终 止 当前 王 程 */ 

Noreturn void thrd exit ( int res ) ; 

7* 通 知 操 作 系 统 ， 当 该 线程 结束 时 ， 负 责 回收 该 线程 所 占用 的 资源 */ 
int thrd detach ( thrd t thr ) ; 

/* 阻 塞 当前 线程 ， 直 到 线程 thr 结束 时 才 返 回 */ 

int thrd join ( thrd t thr, int *res ) ; 


下 面 的 示例 代码 片段 演示 了 线程 的 创建 过 程 : 


int 


{ 


Test (void *val) 


int *result = (int *) val; 
Printf ("Result: %d\n", *result) ; /* Correctly Prints 1 */ 
return 0; 


void CreateThread (thrd 七 *tid) 


{ 


static int val = 1; 
if (thrd_success ! = thrd create (tid, Test, &val) ) 
{ 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresc 
¥ 


main (void) 


thrd t tid; 
CreateThread (gtid) ; 
if (thrd success ! = thrd join (tid, NULL) ) 
{ 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresc 
} 


return 0; 


(2) 互 斥 对 象 


/* 初 始 化 互 斥 对 象 ， type 参 数 决 定 互 斥 对 象 的 类 型 */ 
int mtx init ( mtx 七 *mtx, int type ); 


int mtx lock ( mtx 七 *mtx ) ; 
int mtx timedlock T mtx 七 *restrict mtx, 
const struct timespec *restrict ts ) ; 
int mtx trylock ( mtx 七 *mtx ) ; 
void mtx destroy ( mtx t *mtx ) ; 
int mtx unlock ( mtx t *mtx ) ; 


对 于 互 斥 对 象 的 使 用 ， 你 只 需要 在 使 用 mtx_init 函 数 进行 初始 化 时 ， 指 定 该 互 斥 对 象 的 类 型 即 可 ， 一 共有 下 


“mtx_plain: 简单 的 非 递归 互 斥 对 象 。 
' mtx_timed: 非 递归 的 ， 支 持 超时 的 互 斥 对 象 。 
“ mtx_plain |mtx_recursive: 简单 的 ， 递 归 互 斥 对 象 。 


* mtx_timed|mtx_recursive: 递归 的 ， 支 持 超时 的 互 斥 对 象 。 


该 锁 已 被 其 他 线程 占用 ， 那 么 它 会 立即 返回 thrd_busy。 


函数 mtx_unlock 对 互 斥 对 象 mtx 进 行 解锁 。 


下 面 的 示例 代码 片段 演示 了 互 斥 对 象 的 使 用 场景 : 


面 几 种 类 型 供 选 择 。 


函数 mtx_lock、mtx timedlock 与 mtx_trylock 都 可 以 对 mtx 互 斥 对 象 进行 加 锁 ， 它 们 会 阻塞 ， 直 到 获取 锁 ， 或 者 在 mtx_timedlock 函 数 中 发 生 超 时 。 不 同 的 是 ， 函 数 mtx_trylock 会 进行 锁 检 测 ， 如 果 


static int account balancey; 
static mtx 七 account lock; 
if (mtx init (&account lock, mtx plain) 一 thrd error) 


/* 处 理 错 误 */ 


/* http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/1554 
int Sub (int amount) 
{ 


if (mtx lock (&account lock) 一 thrd error) 
return -1; 

dui lan -= amount; 

if (mtx unlock (&account lock) 一 thrd error) 
: return -1; 

return 0; 


boe Agdd (int amount) 
if (mtx lock (&account lock) = thrd error) 
’ return -1; 
ee += amount; 
if (mtx unlock (&account lock) == thrd_error) 
， return -1; 


return 0; 


(3) 条 件 变 量 


int end init (end t *cond) 了 

int cnd wait (cnd t *cond, mtx 七 xmtx) ; 

int cnd timedwait (cnd t *restrict cond, mtx t *restrict mtx, 
const struct timespec *restrict ts) ; 

void cnd destroy (cnd 上 *cond) ; 

int cnd broadcast (cnd 七 <cond) ; 

int cnd signal (cnd 七 xcond) ; 


所 有 的 条 件 变 量 必须 经 过 cnd _init 函 数 初始 化 后 才能 够 使 用 。 


函数 cnd_wait 会 对 mtx 互 斥 对 象 进行 解锁 操作 ， 然 后 阻塞 ， 直 到 条 件 变量 cond 被 cnd_signal 或 cnd_broadc 


1/OEBPS/Text/... */ 


ast 函 数 调用 唤醒 。 当 前 线程 变 为 非 阻塞 时 ， 它 将 在 返回 之 前 锁定 mtx 互 斥 对 象 。 


函数 cnd timedwait 与 函数 cnd_wait 类 似 ， 不 同 之 处 是 ， 当 前 线程 在 ts 时 间 点 上 还 未 能 被 唤醒 时 ， 它 将 返回 
对 象 。 


函数 cnd_destroy 用 于 销毁 条 件 变量 。 


(4) 初始 化 


thrd_timeout。 函 数 cnd_wait 和 cnd_timedwait 在 被 调用 之 前 ， 当 前 线程 必须 锁 住 mtx 互 斥 


函数 cnd_broadcast 用 于 唤醒 那些 当前 已 经 阻塞 在 cond 条 件 变 量 上 的 所 有 线程 ， 函 数 cnd_signal 则 只 能 够 唤醒 其 中 之 一 。 


void call once (once flag *flag, void (*func) (void) ) ; 


函数 call once 通 过 使 用 flag 来 确保 func 在 多 线程 环境 只 被 调用 一 次 。 


(5) 特定 于 线程 的 存储 


/* 创 建 一 个 key*/ 

int tss create (tss t *key, tss dtor t dtor) ; 
/* 删 除 一 个 key*/ 

void tss delete (tss t key) ; 

/* 获 取 一 个 key*/ 

void *tss get (tss t key) ; 

/* 设 置 一 个 key*/ 

int tss set (tss t key, void *val) ; 


独 使 用 ， 或 者 跟 


最 后 ， 除 上 面 4 个 函数 可 以 操作 线程 私有 变量 之 外 ， 还 可 以 在 声明 和 定义 线程 私 变量 时 通过 指定 Thread_local 存 储 修 饰 符 ， 像 一 般 变 量 的 方式 访问 线程 私有 变量 。_Thread_local 只 能 


static 或 extern 一 起 使 用 。 


建议 117: 使 用 静态 断言 static_assert 执 行 编译 时 检查 


在 C 语 言 中 ， 断 言 assert 宏 可 以 很 好 地 帮助 调试 和 验证 代码 ， 可 以 在 “运行 时 ”使 用 这 种 方法 确保 只 要 前 提 条 件 违规 就 会 发 出 一 条 错误 消息 。 但 在 某 些 情形 下 ， 我 们 希望 在 “编译 时 ”就 尽 可 能 地 找到 这 
些 违规 。 这 样 才 可 以 确保 编写 的 代码 按 预期 执行 ， 或 者 在 不 合 规 的 情况 下 停止 编译 。 例 如 ， 在 共享 模块 时 ， 这 些 模块 常常 必须 处 于 相同 的 地 址 模式 下 才能 工作 。 在 这 种 情况 下 ， 编 程 人 员 可 添加 一 个 编译 时 
断言 ， 以 避免 在 尝试 将 模块 与 不 同 地 址 模式 链接 时 误 匹 配 。 


在 C11 标 准 中 ， 可 以 通过 静态 断言 Static_assert 声 明 来 执行 编译 时 检查 ， 它 允许 编译 器 在 给 定 的 常量 表达 式 为 false (0) 时 发 出 一 条 消息 ， 格 式 如 下 : 


_Static assert ( expression , message ) 


静态 断言 _Static_assert 的 使 用 示例 如 下 所 示 : 


#define static assert Static assert 
http: //www.hzcourse. i 扩 5 ebook/uncompressed/15541/0EBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teach ek 
static assert (sizeof (int*) 一 8， "不 是 64 位 模式 ! ") 


对 于 上 面 的 代码 片段 ， 在 64 位 模式 下 会 顺利 编译 。 但 是 ， 如 果 在 32 位 模式 下 编译 该 代码 片段 ， 编 译 时 断言 会 触发 并 发 出 一 条 消息 “不 是 64 位 模式 ! ”， 以 此 来 提示 我 们 编译 过 程 存在 的 问题 。 


建议 118: 使 用 Noreturn 标 识 不 返回 值 的 函数 


在 C11 标 准 中 ， 引 入 了 关键 字 Noreturn 来 标识 不 返回 值 的 函数 。 这 就 像 内 联 函数 一 样 ， 它 可 以 为 编译 器 提供 一 种 优化 的 标识 ， 以 保证 编译 器 能 够 更 好 地 优化 程序 的 空间 ， 从 而 生成 更 快 的 可 执行 程序 。 
使 用 示例 如 下 面 的 代码 所 示 : 


Void noreturn ErrorHandler (char* val) 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/te 


第 15 章 ”保持 良好 的 设计 


在 程序 设计 中 ， 最 容易 出 错 的 地 方 往往 都 是 一 些 被 忽略 的 细小 问题 ， 如 忘记 初始 化 或 者 错误 地 初始 化 变量 ， 不 必要 的 函数 调用 等 问题 。 本 章 将 作为 本 书 的 最 后 补充 ， 重 点 讨论 一 些 最 常见 的 程序 设计 建 
议 供 大 家 参考 。 


建议 119: 避免 错误 地 变量 初始 化 


在 C 语 言 编程 中 ， 对 于 变量 的 初始 化 必须 遵循 如 下 几 条 建议 。 


1) 所 有 变量 在 使 用 之 前 都 应 该 初始 化 。 如 下 面 的 错误 示例 代码 : 


unsigned int ul; 
unsigned int u2; 
/*ul 没有 初始 值 */ 
u2 = ul; 


2) 对 局 部 声明 禁止 使 用 extern 关 键 字 进 行 初始 化 。 如 下 面 的 错误 示例 代码 : 


int f (void) 


/* 局 部 变量 禁止 使 用 externx/ 
extern int x = 0; 
return (x) ; 


3) 对 数组 、 结 构 和 联合 的 初始 化 列表 应 该 显 式 描述 ， 同 时 还 应 该 遵循 如 下 两 条 建议 : 
: 对 于 数组 、 结 构 和 联合 的 初始 化 列表 应 使 用 大 括号 ， 并 使 用 附加 的 大 括号 来 指示 座 套 的 结构 


“ 显 式 描述 复杂 数据 类 型 的 所 有 元 素 ， 避 免 忽 略 某 个 元 素 的 初始 化 。 


如 下 面 的 示例 代码 所 示 : 


/* 不 建议 的 用 法 */ 
int arr[3] [2] = 
int arr[3] [2] = 
/* 推 荐 的 用 法 */ 

int are[l3]I2] = 4 1 I 和 4 tS 5 js 


4) 枚 举 元 素 的 初始 化 应 该 保持 完整 一 致 。 
对 枚 举 元 素 的 初始 化 ， 只 有 两 种 形式 是 安全 的 : 


“ 初始 化 所 有 元 素 。 


“ 只 初始 化 第 一 个 元 素 。 


如 下 面 的 示例 代码 所 示 : 


的 内 存 空 


/* 不 建议 的 用 法 */ 
enum DayOfWeek{ 
Sunday， 

Monday = 1， 

Tuesday， 
Wednesday， 
Thursday, 
Friday, 
Saturday 


ks 

/* 推 荐 的 用 法 */ 

enum DayOfWeek{ 
Sunday = 0， 
Monday = 1， 
Tuesday = 2， 
Wednesday = 3， 
Thursday = 4， 
Friday = 5， 
Saturday = 6 


建议 120: 谨慎 使 用 内 联 函 数 


在 C 语 言 中 ， 程 序 员 经 常会 把 那些 对 时 间 要 求 比较 高 ， 而 本 身长 度 又 比较 短 的 函数 定义 成 内 联 函数 ， 它 是 一 种 利 
联 函数 之 后 ， 编 译 器 就 会 将 其 函数 在 它 所 调用 的 位 置 上 展开 。 这 样 做 不 仅 可 以 消除 函数 调 


化 ， 从 而 提供 进一步 优化 代码 的 可 能 。 


尽管 如 此 ， 但 由 于 内 联 函数 是 以 代码 膨胀 (复制 
码 量 。 如 果 执 行 函数 体内 代码 的 时 间 比 函数 调 


“ 内 联 函 数 只 适合 于 1~10 行 的 短小 函数 。 


因此 ， 对 于 一 些 函 数 体 比 较 小 的 存 取 函数 以 及 其 他 一 些 比较 短 的 关键 执行 函数 ， 使 
#define 宏 的 编程 建议 。 


的 开销 ， 从 而 提高 函数 的 执行 效率 。 内 联 较 短小 的 
同时 ， 随 着 代码 不 断 变 长 ， 这 也 就 意味 着 将 占 


) 为 代价 ， 仅 仅 省 去 了 函数 调 
的 开销 大 ， 那 么 效率 的 收获 就 会 很 少 。 


因此 ， 使 用 内 联 函数 必须 遵循 如 下 几 条 建议 : 


和 返回 所 带 来 的 开销 ( 寡 存 器 存储 和 恢复 ) ， 而 且 编 译 器 还 可 能 会 将 调 


联 函 数 可 以 令 目 标 代码 更 加 高 效 。 与 此 同时 ， 在 本 书 的 建议 40 中 ， 我 们 也 提出 了 尽量 使 


适度 的 空间 膨胀 来 换取 较 高 的 执行 速度 的 函数 。 一 般 情 况 下 ， 当 某 个 函数 被 声明 为 内 
函数 的 代码 和 函数 本 身 放 在 一 起 进行 优 


“ 内 联 那 些 包 含 循环 或 switch 语 句 的 函数 是 得 不 偿 失 的 ， 除 非 在 大 多 数 情况 下 ， 这 些 循环 或 switch 语 句 从 不 执行 。 


“ 递归 函数 即使 被 声明 为 内 联 的 也 不 一 定 就 是 内 联 函 数 。 


建议 121: 避免 在 函数 内 定义 占用 内 存 很 大 的 局 部 变量 


在 执行 函数 时 ， 函 数 内 


分 配 的 内 存 容量 有 限 。 


如 果 函 数 内 定义 的 局 部 变量 使 
间 应 该 控制 在 1KB 以 内 。 


如 下 面 的 示例 代码 所 示 : 


成 堆栈 溢出 ， 从 而 引发 系统 故障 。 


内 存 过 大 ， 当 函数 出 现 多 


inline 内 联 函 数 来 替代 


存 取 函数 通常 会 减少 代码 量 ， 但 内 联 一 个 很 大 的 函数 将 会 大 大 增加 代 
更 多 的 内 存 空间 或 者 占 


量 的 存储 单元 都 可 以 在 栈 上 创建 ， 函 数 执行 结束 时 这 些 存储 单元 将 被 自动 释放 。 需 要 注意 的 是 ， 栈 内 存 分 配 运算 内 置 于 处 理 器 的 指令 集中 ， 它 的 运行 效率 一 般 很 高 ， 但 是 


， 一 般 而 言 ， 局 部 变量 所 占 


因此 ， 在 函数 内 不 要 定义 占 


int f (void) 


unsigned char buf[2048]; 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...*/ 


bE: 


很 显然 ， 上 面 的 示例 函数 f 中 的 


int f (void) 
{ 


unsigned char *buf; 
buf = (unsigned char *) malloc (sizeof (unsigned char) * 2048) ; 
if (buf 一 NULL) 


{ 


局 部 变量 buf 分 配 的 内 存 是 非常 不 合理 的 。 如 果 在 不 能 够 减 小 该 变量 的 内 存 空间 分 配 的 情况 下 ， 可 以 采 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...*/ 


i 
/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/OEBPS/Text/...*/ 


free (buf) ; 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 


建议 122: 谨慎 设计 函数 参数 的 顺序 和 个 数 


在 C 语 言 中 ， 函 数 的 参数 也 可 以 简单 地 分 为 输入 参数 、 输 出 参数 与 输入 /输出 参数 3 种 。 其 中 ， 输 入 参数 一 般 


于 值 传递 或 者 const 引 


传递 ;而 输出 参数 或 输入 /输出 参数 则 


于 非 const 指 针 。 


一 般 而 言 ， 在 定义 函数 时 ， 参 数 的 顺序 为 : 输入 参数 在 前 ， 输 出 参数 在 后 。 当 然 ， 这 条 建议 只 是 针对 简单 类 型 的 参数 ， 如 果 遇 到 复杂 类 型 的 参数 (如 结构 体 变量 ) 则 不 需要 遵守 这 条 建议 。 


:如果 输入 参数 是 指针 ， 则 应 该 在 参数 的 类 型 前 加 const。 这 样 除 了 阅读 方便 以 外 ， 还 可 以 防止 该 指针 在 函数 体内 被 意外 修改 。 一 旦 在 程序 中 修改 了 const 变 量 ， 大 部 分 编译 器 都 会 报错 ， 从 而 减少 人 工 出 
错 的 可 能 性 。 

“ 如 果 输 入 参数 是 以 值 传递 的 方式 来 传递 对 象 〈 仅 限于 非 内 部 数据 类 型 的 输入 参数 ) ， 那 么 你 还 可 以 使 用 “const&e” 方 式 进行 传递 。 其 中 ，“&” 可 以 让 函数 参数 的 传 值 方式 修改 为 传 址 ， 这 样 避免 了 传 
值 在 对 象 较 大 时 效率 低下 。 与 此 同时 ，const 还 可 以 保证 传 入 的 地 址 上 对 象 的 值 不 被 修改 。 如 下 面 的 示例 代码 所 示 : 


void f (X x) 


可 以 修改 为 如 下 声明 形式 : 


void f (const X &x) 


当然 ， 对 于 内 部 数据 类 型 的 输入 参数 ， 则 不 要 将 “ 值 传递 ”的 方式 改 为 “const 引 用 传递 。。 否 则 既 达 不 到 提高 效率 的 目的 ， 又 降低 了 函数 的 可 理解 性 。 如 下 面 的 示例 代码 所 示 : 


void 工 (int x) 


避免 修改 为 如 下 声明 形式 : 


void f (const int &x) 


最 后 ， 避 免 函数 有 太 多 的 参数 ， 参 数 的 个 数 应 该 尽量 控制 在 5 个 以 内 。 如 果 参 数 太 多 ， 在 使 用 时 容易 将 参数 类 型 或 顺序 搞 错 。 当 然 ， 微 软 的 Win32 API 就 是 违反 本 规则 的 典型 ， 其 函数 的 参数 往往 七 八 个 
或 者 更 多 。 


建议 123: 谨慎 使 用 标准 函数 库 


目前 ，C 语 言 标准 函数 库 中 共 包 含 29 个 头 文件 ， 其 中 : 

“C89 (ANSI C) 标准 中 定义 了 15 个 头 文 件 ， 如 assert.h、ctype.h、errno.h、float.h、limits.h、locale.h、math.h、setjmp.h、signal.h、stdarg,h、stddef.h、stdio.h、stdlib.h、stringh 和 time.h。 
1995 年 ，Normative Addendum 1 (NA1) 批准 了 3 个 头 文件 (iso646.h、wchar.h 和 wctype.h) 增加 到 C 标 准 函 数 库 中 。 

“C99 标准 中 增加 了 6 个 头 文件 ， 如 complex.h、fenv.h、inttypes.h、stdbool.h、stdint.h 和 tgmath.h。 


"C11 标准 中 增加 了 5 个 头 文件 ， 如 stdalign.h、stdatomic.h、stdnoreturn.h、threads.h 和 uchar.h。 


峡 庸 置疑， 这 些 C 语 言 标准 函数 库 不 论 是 在 准确 性 与 高 效 性 方面 ， 还 是 在 可 移植 性 方面 都 做 得 相当 不 错 。 优 秀 的 C 程 序 员 也 会 大 量 地 在 其 程序 中 使 用 这 些 C 语 言 标准 函数 库 ， 从 而 大 大 缩减 开发 周期 ， 同 
时 也 保证 了 程序 的 稳定 性 与 可 移植 性 。 因 此 ， 建 议 一 般 不 要 试图 自己 去 编写 功能 相同 的 自 定义 函数 来 取代 标准 函数 库 。 


但 是 ， 由 于 C 语 言 标准 函数 库 需要 设法 处 理 用户 所 有 可 能 遇 到 的 情况 ， 这 样 造成 很 多 标准 函数 库 代 码 量 很 大 。 庞 大 的 代码 量 不 仅 使 运算 处 理 过 程 过 度 复杂 化 ， 同 时 也 占用 了 大 量 的 内 存 空间 。 例 如 ， 函 
数 sprintf 就 是 一 个 典型 的 例子 ， 该 函数 中 很 大 一 部 分 代码 量 都 用 于 处 理 浮 点 数 。 如 果 我 们 的 程序 中 不 需要 格式 化 浮 点 数值 ， 那 么 是 否 可 以 考虑 根据 实际 情况 用 少量 的 代码 来 实现 这 个 功能 呢 ? 很 显然 ， 对 了 
内 存 资源 宝贵 的 嵌入 式 系统 开发 ， 可 以 适当 地 减少 使 用 这 些 标准 函数 库 。 


建议 124: 避免 不 必要 的 函数 调用 


看 下 面 一 段 示例 代码 : 


Char *str = XXXXXIXXOCXXXXI 3 
int i = 0; 
for (i= 0; i< strlen (str) ; i++) 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/O0EBPS/Text/...*/ 


很 显然 ， 上 面 的 示例 代码 设计 及 其 不 合理 ， 程 序 每 执行 一 次 for 循 环 就 需要 调用 strlen 函 数 一 次 ， 调 用 的 次 数 取 决 于 “strlen (str) ”的 值 。 在 实际 编程 中 ， 必 须 杜 绝 这 种 程序 写法 ， 应 该 尽量 避免 不 必 
的 函数 调用 ， 如 下 面 的 示例 代码 所 示 : 


Char *str = "XxxxxXXXXXXXX"; 
int i = 0; 

int len = strlen (Str) ; 
for (i= 0; i< len; i++) 


/*http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15541/0EBPS/Text/...*/ 


现在 ， 不 论 for 循 环 多 少 次 ， 程 序 都 只 调用 函数 一 次 strlen 函 数 。 


建议 125: 谨慎 程序 中 嵌入 汇编 代码 


在 程序 设计 中 ， 同 样 存在 着 一 个 “80/20” 原 则 ， 即 20% 的 代码 消耗 了 80% 的 资源 与 运行 时 间 。 因 此 ， 要 改善 程序 的 执行 效率 ， 就 必须 考虑 如 何 改进 这 20% 的 代码 。 对 C 语 言 来 说 ， 适 当 使 用 嵌入 汇编 ， 
可 以 大 大 提高 程序 的 执行 效率 。 在 Linux 内 核 中 ， 很 多 常用 的 函数 也 都 使 用 了 内 旋 汇 编 ， 如 memcpy、strlen、strcpy 等 函数 。 下 面 的 代码 展示 了 Linux 4.0.4 内 核 中 的 memcpy 函 数 (linux- 


4.0.4\arch\x86\boot\compressed\string.c) : 


#ifdef CONFIG X86 32 
void *memcpy (void *dest, 


{ 


const void *src, size 七 D) 


int 0 Ll Hs 

asm volatile ( 
"rep ; movsl\n\t" 
"mov] %4, %%ecx\n\t" 


"rep ; movsb\n\t" 
rec" (do0) , "=gD" (dl) ， "=gS" (d2) 


"O" (n >> 2) ，"g 
"memory") ; 
return dest; 
} 


#else 
void *memcpy (void *dest, const void *src, size t n) 
{ 
long d0, dl, d2; 
asm volatile ( 
"rep ; movsq\n\t" 
"movg %4, %%rcx\n\t" 
"rep ; movsb\n\t" 
"=&cn (d0) ， "=gD" (dl1) ， "=&S" 
机 
"memory") ; 
return dest; 


(d2) 


} 
#endif 


站 


5 


"on 


non 


《SEE 


(src) 


次 ， 因 为 汇编 的 原因 ， 从 而 限制 


注意 存在 的 问题 : 首先 ， 在 程序 中 嵌入 汇编 将 增加 开发 、 测 试 与 代码 维护 的 难度 ; 其 


虽然 ， 在 程序 中 使 


四 


内 谱 汇 编 可 以 使 程序 的 运行 效率 带 来 显著 提高 ， 但 同时 也 需 


了 程序 的 可 移植 性 ; 最 后 ， 这 种 内 谱 汇 编 的 编程 方式 也 与 现代 软件 工程 的 思想 相 违背 。 


因此 ， 需 要 谨慎 采用 。 


